|
@@ -1,22 +1,87 @@
|
|
-一、目前爬虫分为两种模式
|
|
|
|
- 1:原始模式:采集完列表页后直接采集详情页(modal:0)
|
|
|
|
- ①:高性能模式,7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
|
|
|
|
- ②:队列模式,7700采集详情页连接需要拼接的数据(ishistoryevent:false);7500发布量小的爬虫(ishistoryevent:false)
|
|
|
|
-
|
|
|
|
- 2:列表、详情页分开采集模式:先采集列表页信息存库,再检索列表页数据下载详情页
|
|
|
|
- ①:高性能模式,7100、7400(ishistoryevent:false)
|
|
|
|
- ②:队列模式,7200、7210、7300、7310(ishistoryevent:false)
|
|
|
|
-
|
|
|
|
-
|
|
|
|
- 1:高性能模式:7000、7100、7400
|
|
|
|
- ①:原始模式:(modal:0)
|
|
|
|
- 7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
|
|
|
|
- ②:列表、详情页分开采集模式(modal:1)
|
|
|
|
- 7100、7400(ishistoryevent:false)
|
|
|
|
-
|
|
|
|
- 2:队列模式:7200、7210、7300、7310、7700
|
|
|
|
- ①:原始模式:(modal:0)
|
|
|
|
- 7700采集详情页连接需要拼接的数据(ishistoryevent:false)
|
|
|
|
- 7500发布量小的爬虫(ishistoryevent:false)
|
|
|
|
- ②:列表、详情页分开采集模式(modal:1)
|
|
|
|
- 7200、7210、7300、7310(ishistoryevent:false)
|
|
|
|
|
|
+一:模式
|
|
|
|
+ 1、根据采集性能分为:
|
|
|
|
+ 高性能模式:根据间隔时间定时采集。
|
|
|
|
+ 队列模式:某节点所有爬虫依次轮循采集。
|
|
|
|
+ 2、根据采集方式分为:
|
|
|
|
+ 新模式(列表页、详情页分开采集的模式):可理解为某个爬虫分为两个部分,一部分只采集列表页信息进行存储,另一部分根据存储的列表页信息采集详情页。两部分独立存在。
|
|
|
|
+ 老模式(列表页、详情页顺序采集的模式):某个爬虫采集列表页信息后直接采集详情页信息。
|
|
|
|
+
|
|
|
|
+一:节点
|
|
|
|
+ 1、7000:
|
|
|
|
+ 模式:高性能模式、老模式(兼新模式)
|
|
|
|
+ 用途:
|
|
|
|
+ ①创建的新爬虫跑完历史数据后转移到增量节点(新模式)-爬虫类型“历史”;
|
|
|
|
+ ②某爬虫选择历史补漏选项,补充历史数据后自动下架(新模式)-爬虫类型“增量”;
|
|
|
|
+ ③在该节点上跑某个疑似补发数据(2-3天)的爬虫(老模式)-爬虫类型“增量”;
|
|
|
|
+ 列表页存储:spider_historydata
|
|
|
|
+ 注意:7000几点modal不能设置为1(上架时会创建下载三级页脚本)
|
|
|
|
+ 2、7100:
|
|
|
|
+ 模式:高性能模式、新模式。
|
|
|
|
+ 用途:省及以上政府类、公共资源类网站信息、发布量较大网站信息采集。
|
|
|
|
+ 执行间隔:爬虫间隔时间
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+ 3、7110:
|
|
|
|
+ 模式:高性能模式、新模式。
|
|
|
|
+ 用途:发布量较大网站信息采集。
|
|
|
|
+ 执行间隔:爬虫间隔时间
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+ 4、7200:
|
|
|
|
+ 模式:队列模式、新模式。
|
|
|
|
+ 用途:发布量较小网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+
|
|
|
|
+ 5、7210:
|
|
|
|
+ 模式:队列模式、新模式。
|
|
|
|
+ 用途:发布量较小网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+ 6、7300:
|
|
|
|
+ 模式:队列模式、新模式。
|
|
|
|
+ 用途:发布量较小网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+ 7、7310:
|
|
|
|
+ 模式:队列模式、新模式。
|
|
|
|
+ 用途:发布量较小网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+ 8、7400:
|
|
|
|
+ 模式:高性能模式、新模式。
|
|
|
|
+ 用途:发布量较大网站信息采集。
|
|
|
|
+ 执行间隔:爬虫间隔时间
|
|
|
|
+ 列表页存储:spider_highlistdata
|
|
|
|
+ 9、7410:
|
|
|
|
+ 模式:高性能模式、老模式。
|
|
|
|
+ 用途:网站信息连接会发生改变信息采集。
|
|
|
|
+ 执行间隔:爬虫间隔时间
|
|
|
|
+ 列表页存储:spider_listdata
|
|
|
|
+ 10、7500:
|
|
|
|
+ 模式:队列模式、老模式。
|
|
|
|
+ 用途:发布量极少网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_listdata
|
|
|
|
+ 11、7510:
|
|
|
|
+ 模式:队列模式、老模式。
|
|
|
|
+ 用途:发布量极少网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_listdata
|
|
|
|
+
|
|
|
|
+ 12、7520:
|
|
|
|
+ 模式:队列模式、老模式。
|
|
|
|
+ 用途:发布量极少网站信息采集。
|
|
|
|
+ 执行间隔:3-4h
|
|
|
|
+ 列表页存储:spider_listdata
|
|
|
|
+ 13、7700:
|
|
|
|
+ 模式:队列模式、老模式。
|
|
|
|
+ 用途:发布量极少网站信息采集。
|
|
|
|
+ 执行间隔:1-2h
|
|
|
|
+ 列表页存储:spider_listdata
|
|
|
|
+
|
|
|
|
+三、汇总
|
|
|
|
+ 高性能模式:
|
|
|
|
+ 新模式:7100、7110、7400
|
|
|
|
+ 老模式:7000、7410
|
|
|
|
+ 队列模式:
|
|
|
|
+ 新模式:7200、7210、7300、7310
|
|
|
|
+ 老模式:7500、7510、7520、7700
|