maxiaoshan ad55187b9d "三级页判断" 3 年之前
..
ecps 9753a2ad47 commit 4 年之前
filter 9753a2ad47 commit 4 年之前
res 20ec5b2461 loadscript方法改动 3 年之前
spider ad55187b9d "三级页判断" 3 年之前
web 9753a2ad47 commit 4 年之前
config.json 33d8e6143a 调整无限翻页逻辑 3 年之前
main.go 0e61b84d91 xg 3 年之前
mainT.go 330135d306 测试 3 年之前
readme.txt 3ae72094d4 xg 3 年之前

readme.txt

一、目前爬虫分为两种模式
1:原始模式:采集完列表页后直接采集详情页(modal:0)
①:高性能模式,7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
②:队列模式,7700采集详情页连接需要拼接的数据(ishistoryevent:false);7500发布量小的爬虫(ishistoryevent:false)

2:列表、详情页分开采集模式:先采集列表页信息存库,再检索列表页数据下载详情页
①:高性能模式,7100、7400(ishistoryevent:false)
②:队列模式,7200、7210、7300、7310(ishistoryevent:false)


1:高性能模式:7000、7100、7400
①:原始模式:(modal:0)
7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
②:列表、详情页分开采集模式(modal:1)
7100、7400(ishistoryevent:false)

2:队列模式:7200、7210、7300、7310、7700
①:原始模式:(modal:0)
7700采集详情页连接需要拼接的数据(ishistoryevent:false)
7500发布量小的爬虫(ishistoryevent:false)
②:列表、详情页分开采集模式(modal:1)
7200、7210、7300、7310(ishistoryevent:false)