maxiaoshan 1243024262 调整7000节点补历史数据爬虫存储表-spider_historydata 2 лет назад
..
ecps 9753a2ad47 commit 4 лет назад
filter 9753a2ad47 commit 4 лет назад
res 0ce8d7c04a base64附件上传 2 лет назад
spider 1243024262 调整7000节点补历史数据爬虫存储表-spider_historydata 2 лет назад
web 9753a2ad47 commit 4 лет назад
config.json 38367ae4bc 新版redis调整 2 лет назад
main.go f6e3e6039e es调整;数据存储调整 2 лет назад
mainT.go 7af70dd0ca 爬虫更新上架修改爬虫内存参数 2 лет назад
readme.txt 1243024262 调整7000节点补历史数据爬虫存储表-spider_historydata 2 лет назад

readme.txt

一:模式
1、根据采集性能分为:
高性能模式:根据间隔时间定时采集。
队列模式:某节点所有爬虫依次轮循采集。
2、根据采集方式分为:
新模式(列表页、详情页分开采集的模式):可理解为某个爬虫分为两个部分,一部分只采集列表页信息进行存储,另一部分根据存储的列表页信息采集详情页。两部分独立存在。
老模式(列表页、详情页顺序采集的模式):某个爬虫采集列表页信息后直接采集详情页信息。

一:节点
1、7000:
模式:高性能模式、老模式(兼新模式)
用途:
①创建的新爬虫跑完历史数据后转移到增量节点(新模式)-爬虫类型“历史”;
②某爬虫选择历史补漏选项,补充历史数据后自动下架(新模式)-爬虫类型“增量”;
③在该节点上跑某个疑似补发数据(2-3天)的爬虫(老模式)-爬虫类型“增量”;
列表页存储:spider_historydata
注意:7000几点modal不能设置为1(上架时会创建下载三级页脚本)
2、7100:
模式:高性能模式、新模式。
用途:省及以上政府类、公共资源类网站信息、发布量较大网站信息采集。
执行间隔:爬虫间隔时间
列表页存储:spider_highlistdata
3、7110:
模式:高性能模式、新模式。
用途:发布量较大网站信息采集。
执行间隔:爬虫间隔时间
列表页存储:spider_highlistdata
4、7200:
模式:队列模式、新模式。
用途:发布量较小网站信息采集。
执行间隔:1-2h
列表页存储:spider_highlistdata

5、7210:
模式:队列模式、新模式。
用途:发布量较小网站信息采集。
执行间隔:1-2h
列表页存储:spider_highlistdata
6、7300:
模式:队列模式、新模式。
用途:发布量较小网站信息采集。
执行间隔:1-2h
列表页存储:spider_highlistdata
7、7310:
模式:队列模式、新模式。
用途:发布量较小网站信息采集。
执行间隔:1-2h
列表页存储:spider_highlistdata
8、7400:
模式:高性能模式、新模式。
用途:发布量较大网站信息采集。
执行间隔:爬虫间隔时间
列表页存储:spider_highlistdata
9、7410:
模式:高性能模式、老模式。
用途:网站信息连接会发生改变信息采集。
执行间隔:爬虫间隔时间
列表页存储:spider_listdata
10、7500:
模式:队列模式、老模式。
用途:发布量极少网站信息采集。
执行间隔:1-2h
列表页存储:spider_listdata
11、7510:
模式:队列模式、老模式。
用途:发布量极少网站信息采集。
执行间隔:1-2h
列表页存储:spider_listdata

12、7520:
模式:队列模式、老模式。
用途:发布量极少网站信息采集。
执行间隔:3-4h
列表页存储:spider_listdata
13、7700:
模式:队列模式、老模式。
用途:发布量极少网站信息采集。
执行间隔:1-2h
列表页存储:spider_listdata

三、汇总
高性能模式:
新模式:7100、7110、7400
老模式:7000、7410
队列模式:
新模式:7200、7210、7300、7310
老模式:7500、7510、7520、7700