2 years ago · 1243024262
--- a/src/readme.txt
+++ b/src/readme.txt
@@ -1,22 +1,87 @@
 
															-一、目前爬虫分为两种模式
														
 
															-	1：原始模式：采集完列表页后直接采集详情页(modal:0)
														
 
															-		①：高性能模式，7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
														
 
															-		②：队列模式，7700采集详情页连接需要拼接的数据(ishistoryevent:false);7500发布量小的爬虫(ishistoryevent:false)
														
 
															-		
														
 
															-	2：列表、详情页分开采集模式：先采集列表页信息存库，再检索列表页数据下载详情页
														
 
															-		①：高性能模式，7100、7400(ishistoryevent:false)
														
 
															-		②：队列模式，7200、7210、7300、7310(ishistoryevent:false)
														
 
															-		
														
 
															-		
														
 
															-	1：高性能模式：7000、7100、7400
														
 
															-		①：原始模式:(modal:0)
														
 
															-			7000采集历史数据和采集历史后转节点采增量(ishistoryevent:true)
														
 
															-		②：列表、详情页分开采集模式(modal:1)
														
 
															-			7100、7400(ishistoryevent:false)
														
 
															-		
														
 
															-	2：队列模式:7200、7210、7300、7310、7700
														
 
															-		①：原始模式:(modal:0)
														
 
															-			7700采集详情页连接需要拼接的数据(ishistoryevent:false)
														
 
															-			7500发布量小的爬虫(ishistoryevent:false)
														
 
															-		②：列表、详情页分开采集模式(modal:1)
														
 
															-			7200、7210、7300、7310(ishistoryevent:false)
														
 
															+一：模式
														
 
															+	1、根据采集性能分为：
														
 
															+		高性能模式：根据间隔时间定时采集。
														
 
															+		队列模式：某节点所有爬虫依次轮循采集。
														
 
															+	2、根据采集方式分为：
														
 
															+		新模式(列表页、详情页分开采集的模式)：可理解为某个爬虫分为两个部分，一部分只采集列表页信息进行存储，另一部分根据存储的列表页信息采集详情页。两部分独立存在。
														
 
															+		老模式(列表页、详情页顺序采集的模式)：某个爬虫采集列表页信息后直接采集详情页信息。
														
 
															+
														
 
															+一：节点
														
 
															+	1、7000：
														
 
															+		模式：高性能模式、老模式（兼新模式）
														
 
															+		用途：
														
 
															+			①创建的新爬虫跑完历史数据后转移到增量节点(新模式)-爬虫类型“历史”；
														
 
															+			②某爬虫选择历史补漏选项，补充历史数据后自动下架(新模式)-爬虫类型“增量”；
														
 
															+			③在该节点上跑某个疑似补发数据(2-3天)的爬虫(老模式)-爬虫类型“增量”；
														
 
															+        列表页存储：spider_historydata
														
 
															+        注意：7000几点modal不能设置为1（上架时会创建下载三级页脚本）
														
 
															+	2、7100：
														
 
															+		模式：高性能模式、新模式。
														
 
															+		用途：省及以上政府类、公共资源类网站信息、发布量较大网站信息采集。
														
 
															+		执行间隔：爬虫间隔时间
														
 
															+        列表页存储：spider_highlistdata
														
 
															+	3、7110：
														
 
															+		模式：高性能模式、新模式。
														
 
															+		用途：发布量较大网站信息采集。
														
 
															+		执行间隔：爬虫间隔时间
														
 
															+        列表页存储：spider_highlistdata
														
 
															+	4、7200：
														
 
															+		模式：队列模式、新模式。
														
 
															+		用途：发布量较小网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_highlistdata
														
 
															+
														
 
															+	5、7210：
														
 
															+		模式：队列模式、新模式。
														
 
															+		用途：发布量较小网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_highlistdata
														
 
															+	6、7300：
														
 
															+		模式：队列模式、新模式。
														
 
															+		用途：发布量较小网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_highlistdata
														
 
															+	7、7310：
														
 
															+		模式：队列模式、新模式。
														
 
															+		用途：发布量较小网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_highlistdata
														
 
															+	8、7400：
														
 
															+		模式：高性能模式、新模式。
														
 
															+		用途：发布量较大网站信息采集。
														
 
															+		执行间隔：爬虫间隔时间
														
 
															+        列表页存储：spider_highlistdata
														
 
															+	9、7410：
														
 
															+		模式：高性能模式、老模式。
														
 
															+		用途：网站信息连接会发生改变信息采集。
														
 
															+		执行间隔：爬虫间隔时间
														
 
															+        列表页存储：spider_listdata
														
 
															+	10、7500：
														
 
															+		模式：队列模式、老模式。
														
 
															+		用途：发布量极少网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_listdata
														
 
															+	11、7510：
														
 
															+		模式：队列模式、老模式。
														
 
															+		用途：发布量极少网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_listdata
														
 
															+
														
 
															+	12、7520：
														
 
															+		模式：队列模式、老模式。
														
 
															+		用途：发布量极少网站信息采集。
														
 
															+		执行间隔：3-4h
														
 
															+        列表页存储：spider_listdata
														
 
															+	13、7700：
														
 
															+		模式：队列模式、老模式。
														
 
															+		用途：发布量极少网站信息采集。
														
 
															+		执行间隔：1-2h
														
 
															+        列表页存储：spider_listdata
														
 
															+
														
 
															+三、汇总
														
 
															+	高性能模式：
														
 
															+		新模式：7100、7110、7400
														
 
															+		老模式：7000、7410
														
 
															+	队列模式：
														
 
															+		新模式：7200、7210、7300、7310
														
 
															+		老模式：7500、7510、7520、7700
														
--- a/src/spider/spider.go
+++ b/src/spider/spider.go
@@ -645,8 +645,9 @@ func (s *Spider) DownloadDetailItem(p interface{}, num *int) {
 
															 		*num++ //已采集
														
 
															 		return
														
 
															 	}
														
 
															-	id := ""                                                                                           //记录spider_listdata中保存的数据id，便于下载成功后更新状态
														
 
															-	if util.Config.Modal == 1 || (util.Config.IsHistoryEvent && s.GetVar("spiderType") == "history") { //列表页、详情页分开采集模式节点和7000节点新爬虫采集的数据数据
														
 
															+	id := "" //记录spider_listdata中保存的数据id，便于下载成功后更新状态
														
 
															+	//if util.Config.Modal == 1 || (util.Config.IsHistoryEvent && s.GetVar("spiderType") == "history") { //列表页、详情页分开采集模式节点和7000节点新爬虫采集的数据数据
														
 
															+	if util.Config.Modal == 1 || util.Config.IsHistoryEvent { //分开采集模式和历史节点（7000）
														
 
															 		SaveHighListPageData(paramdata, hashHref, num) //存表
														
 
															 		return
														
 
															 	} else {