Browse Source

调整7000节点补历史数据爬虫存储表-spider_historydata

maxiaoshan 2 years ago
parent
commit
1243024262
2 changed files with 90 additions and 24 deletions
  1. 87 22
      src/readme.txt
  2. 3 2
      src/spider/spider.go

+ 87 - 22
src/readme.txt

@@ -1,22 +1,87 @@
-一、目前爬虫分为两种模式
-	1:原始模式:采集完列表页后直接采集详情页(modal:0)
-		①:高性能模式,7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
-		②:队列模式,7700采集详情页连接需要拼接的数据(ishistoryevent:false);7500发布量小的爬虫(ishistoryevent:false)
-		
-	2:列表、详情页分开采集模式:先采集列表页信息存库,再检索列表页数据下载详情页
-		①:高性能模式,7100、7400(ishistoryevent:false)
-		②:队列模式,7200、7210、7300、7310(ishistoryevent:false)
-		
-		
-	1:高性能模式:7000、7100、7400
-		①:原始模式:(modal:0)
-			7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
-		②:列表、详情页分开采集模式(modal:1)
-			7100、7400(ishistoryevent:false)
-		
-	2:队列模式:7200、7210、7300、7310、7700
-		①:原始模式:(modal:0)
-			7700采集详情页连接需要拼接的数据(ishistoryevent:false)
-			7500发布量小的爬虫(ishistoryevent:false)
-		②:列表、详情页分开采集模式(modal:1)
-			7200、7210、7300、7310(ishistoryevent:false)
+一:模式
+	1、根据采集性能分为:
+		高性能模式:根据间隔时间定时采集。
+		队列模式:某节点所有爬虫依次轮循采集。
+	2、根据采集方式分为:
+		新模式(列表页、详情页分开采集的模式):可理解为某个爬虫分为两个部分,一部分只采集列表页信息进行存储,另一部分根据存储的列表页信息采集详情页。两部分独立存在。
+		老模式(列表页、详情页顺序采集的模式):某个爬虫采集列表页信息后直接采集详情页信息。
+
+一:节点
+	1、7000:
+		模式:高性能模式、老模式(兼新模式)
+		用途:
+			①创建的新爬虫跑完历史数据后转移到增量节点(新模式)-爬虫类型“历史”;
+			②某爬虫选择历史补漏选项,补充历史数据后自动下架(新模式)-爬虫类型“增量”;
+			③在该节点上跑某个疑似补发数据(2-3天)的爬虫(老模式)-爬虫类型“增量”;
+        列表页存储:spider_historydata
+        注意:7000几点modal不能设置为1(上架时会创建下载三级页脚本)
+	2、7100:
+		模式:高性能模式、新模式。
+		用途:省及以上政府类、公共资源类网站信息、发布量较大网站信息采集。
+		执行间隔:爬虫间隔时间
+        列表页存储:spider_highlistdata
+	3、7110:
+		模式:高性能模式、新模式。
+		用途:发布量较大网站信息采集。
+		执行间隔:爬虫间隔时间
+        列表页存储:spider_highlistdata
+	4、7200:
+		模式:队列模式、新模式。
+		用途:发布量较小网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_highlistdata
+
+	5、7210:
+		模式:队列模式、新模式。
+		用途:发布量较小网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_highlistdata
+	6、7300:
+		模式:队列模式、新模式。
+		用途:发布量较小网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_highlistdata
+	7、7310:
+		模式:队列模式、新模式。
+		用途:发布量较小网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_highlistdata
+	8、7400:
+		模式:高性能模式、新模式。
+		用途:发布量较大网站信息采集。
+		执行间隔:爬虫间隔时间
+        列表页存储:spider_highlistdata
+	9、7410:
+		模式:高性能模式、老模式。
+		用途:网站信息连接会发生改变信息采集。
+		执行间隔:爬虫间隔时间
+        列表页存储:spider_listdata
+	10、7500:
+		模式:队列模式、老模式。
+		用途:发布量极少网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_listdata
+	11、7510:
+		模式:队列模式、老模式。
+		用途:发布量极少网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_listdata
+
+	12、7520:
+		模式:队列模式、老模式。
+		用途:发布量极少网站信息采集。
+		执行间隔:3-4h
+        列表页存储:spider_listdata
+	13、7700:
+		模式:队列模式、老模式。
+		用途:发布量极少网站信息采集。
+		执行间隔:1-2h
+        列表页存储:spider_listdata
+
+三、汇总
+	高性能模式:
+		新模式:7100、7110、7400
+		老模式:7000、7410
+	队列模式:
+		新模式:7200、7210、7300、7310
+		老模式:7500、7510、7520、7700

+ 3 - 2
src/spider/spider.go

@@ -645,8 +645,9 @@ func (s *Spider) DownloadDetailItem(p interface{}, num *int) {
 		*num++ //已采集
 		*num++ //已采集
 		return
 		return
 	}
 	}
-	id := ""                                                                                           //记录spider_listdata中保存的数据id,便于下载成功后更新状态
-	if util.Config.Modal == 1 || (util.Config.IsHistoryEvent && s.GetVar("spiderType") == "history") { //列表页、详情页分开采集模式节点和7000节点新爬虫采集的数据数据
+	id := "" //记录spider_listdata中保存的数据id,便于下载成功后更新状态
+	//if util.Config.Modal == 1 || (util.Config.IsHistoryEvent && s.GetVar("spiderType") == "history") { //列表页、详情页分开采集模式节点和7000节点新爬虫采集的数据数据
+	if util.Config.Modal == 1 || util.Config.IsHistoryEvent { //分开采集模式和历史节点(7000)
 		SaveHighListPageData(paramdata, hashHref, num) //存表
 		SaveHighListPageData(paramdata, hashHref, num) //存表
 		return
 		return
 	} else {
 	} else {