Эх сурвалжийг харах

新增指定站点延迟采集详情页功能

maxiaoshan 3 жил өмнө
parent
commit
23557549af

+ 3 - 0
src/config.json

@@ -24,6 +24,9 @@
     	"keyword":"(抽签|中标|招标|成交|合同|中标候选人|资格预审|拟建|邀请|询价|比选|议价|竞价|磋商|采购|招投标|答疑|变更公告|更正公告|竞争性谈判|竞谈|意见征询|澄清|单一来源|流标|废标|验收公告|中止|终止|违规|处罚|征集公告|开标结果|评审结果|监理|招租|租赁|评判结果|项目|遴选|补遗|竞标|征求意见)",
     	"notkeyword":"(招聘|拍卖|出租|出让|使用权|资产)"
     },
+    "delaysite": {
+        "中国政府采购网": 7
+    },
     "oss":{
     	"ossEndpoint":"oss-cn-beijing-internal.aliyuncs.com",
 		"ossAccessKeyId":"LTAI4G5x9aoZx8dDamQ7vfZi",  

+ 5 - 3
src/spider/spider.go

@@ -687,12 +687,14 @@ func (s *Spider) DownloadHighDetail() {
 	for {
 		logger.Info("Running Code:", s.Code, "Stop:", s.Stop)
 		if !s.Stop { //爬虫是运行状态
+			comeintimeQuery := map[string]interface{}{"$gte": GetTime(-util.Config.DayNum)}                 //采集一周内的数据,防止有数据一直采不下来,造成积累
+			if delayDay := util.Config.DelaySites[s.Name]; delayDay > 0 && delayDay <= util.Config.DayNum { //判断该爬虫是否属于要延迟采集的站点
+				comeintimeQuery["$lte"] = GetTime(-delayDay + 1)
+			}
 			q := map[string]interface{}{
 				"spidercode": s.Code,
 				"state":      0, //0:入库状态;-1:采集失败;1:成功
-				"comeintime": map[string]interface{}{ //采集一周内的数据,防止有数据一直采不下来,造成积累
-					"$gte": GetTime(-util.Config.DayNum),
-				},
+				"comeintime": comeintimeQuery,
 			}
 			o := map[string]interface{}{"_id": -1}
 			f := map[string]interface{}{