2 年之前 · b540eb55c7
--- a/zgztb_cookie/zgzbtb_spider.py
+++ b/zgztb_cookie/zgzbtb_spider.py
@@ -2,141 +2,182 @@
 
															 #  中国招标投标公共服务平台
														
 
															 #  @CreatDate    : 4/11/2021 上午 10:04
														
 
															 #  @Author  : 马国鹏
														
 
															-#  @File    : qgzb_spider.py
														
 
															-import sys
														
 
															-sys.path.append('/mnt/FworkSpider')
														
 
															-
														
 
															-import datetime
														
 
															+import json
														
 
															 import time
														
 
															 from collections import namedtuple
														
 
															 import requests
														
 
															-from utils.databases import redis_cluster, mongo_table, int2long
														
 
															+from utils.databases import mongo_table, int2long, redis_client
														
 
															 from utils.log import logger
														
 
															 from utils.tools import redis_exists, redis_set
														
 
															-from feapder.network.proxy_pool import swordfish_proxy
														
 
															-Menu = namedtuple('Menu', ['channel', 'code', 'id', 'crawl_page', "businessKeyWord"])
														
 
															+Menu = namedtuple('Menu', ['channel', 'code', 'type', 'businessKeyWord'])
														
 
															+
														
 
															+
														
 
															+def socks_proxy():
														
 
															+    """剑鱼代理"""
														
 
															+    url = 'http://cc.spdata.jianyu360.com/crawl/proxy/socks5/fetch'
														
 
															+    headers = {"Authorization": 'Basic amlhbnl1MDAxOjEyM3F3ZSFB'}
														
 
															+    proxy = requests.get(url, headers=headers).json()
														
 
															+    proxies = proxy.get('data')
														
 
															+    logger.info(f"切换代理：{proxies}")
														
 
															+    return proxies
														
 
															+
														
 
															+def date_to_timestamp(date, time_format="%Y-%m-%d %H:%M:%S"):
														
 
															+    """
														
 
															+    @summary:
														
 
															+    ---------
														
 
															+    @param date:将"2011-09-28 10:00:00"时间格式转化为时间戳
														
 
															+    @param time_format:时间格式
														
 
															+    ---------
														
 
															+    @result: 返回时间戳
														
 
															+    """
														
 
															-class CebPubServiceListPageSpider(object):
														
 
															+    timestamp = time.mktime(time.strptime(date, time_format))
														
 
															+    return int(timestamp)
														
 
															+
														
 
															+
														
 
															+class CebPubServiceListPageSpider:
														
 
															     def __init__(self):
														
 
															         self.menus = [
														
 
															-            Menu('未按数据规范-招标项目', 'a_zgzbtbggfwpt_wasjgf_zbxm', "招标项目", 1, "tenderProject"),
														
 
															-            Menu('未按数据规范-招标公告', 'a_zgzbtbggfwpt_wasjgf_zbgg', "招标公告", 1,"tenderBulletin"),
														
 
															-            Menu('未按数据规范-开标记录', 'a_zgzbtbggfwpt_wasjgf_kbjl', "开标记录", 1, "openBidRecord"),
														
 
															-            Menu('未按数据规范-评标公示', 'a_zgzbtbggfwpt_wasjgf_pbgs', "评标公示", 1, "winCandidateBulletin"),
														
 
															-            Menu('未按数据规范-中标公告', 'a_zgzbtbggfwpt_wasjgf_zhbgg', "中标公告", 1, "winBidBulletin"),
														
 
															-            # Menu('未按数据规范-签约履行', 'a_zgzbtbggfwpt_wasjgf_qylx', "签约履行", 1,"tenderBulletin"),
														
 
															+            Menu('未按数据规范-招标公告', 'a_zgzbtbggfwpt_wasjgf_zbgg', '招标公告', 'tenderBulletin'),
														
 
															+            Menu('未按数据规范-开标记录', 'a_zgzbtbggfwpt_wasjgf_kbjl', '开标记录', 'openBidRecord'),
														
 
															+            Menu('未按数据规范-评标公示', 'a_zgzbtbggfwpt_wasjgf_pbgs', '评标公示', 'winCandidateBulletin'),
														
 
															+            Menu('未按数据规范-中标公告', 'a_zgzbtbggfwpt_wasjgf_zhbgg', '中标公告', 'winBidBulletin'),
														
 
															+            # Menu('未按数据规范-签约履行', 'a_zgzbtbggfwpt_wasjgf_qylx', "签约履行", "tenderBulletin"),
														
 
															+            # Menu('未按数据规范-招标项目', 'a_zgzbtbggfwpt_wasjgf_zbxm', '招标项目',  'tenderProject'), # 已废除
														
 
															         ]
														
 
															         self.crawl_list = mongo_table('py_spider', 'zgzb_list')
														
 
															-        self.r = redis_cluster()
														
 
															+        self.r = redis_client()
														
 
															         self.url = 'http://www.cebpubservice.com/ctpsp_iiss/searchbusinesstypebeforedooraction/getStringMethod.do'
														
 
															     def start(self):
														
 
															-        for menu in self.menus:
														
 
															-            self.list_page(menu)
														
 
															-
														
 
															-    def list_page(self, menu):
														
 
															-        header = {
														
 
															-            "Origin": "http://www.cebpubservice.com",
														
 
															-            "Host": "www.cebpubservice.com",
														
 
															-            "Content-Length": "228",
														
 
															-            "X-Requested-With": "XMLHttpRequest",
														
 
															-            "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
														
 
															+        headers = {
														
 
															+            'Accept': 'application/json, text/javascript, */*; q=0.01',
														
 
															+            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,sq;q=0.7',
														
 
															+            'Cache-Control': 'no-cache',
														
 
															+            'Connection': 'keep-alive',
														
 
															+            'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
														
 
															+            'Origin': 'http://www.cebpubservice.com',
														
 
															+            'Pragma': 'no-cache',
														
 
															+            'X-Requested-With': 'XMLHttpRequest',
														
 
															             "Referer": "http://www.cebpubservice.com/ctpsp_iiss/searchbusinesstypebeforedooraction/getSearch.do?tabledivIds=searchTabLi2",
														
 
															             "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400"
														
 
															         }
														
 
															-        data = "searchName=&searchArea=&searchIndustry=&centerPlat=&businessType=%E6%8B%9B%E6%A0%87%E5%85%AC%E5%91%8A&searchTimeStart=&searchTimeStop=&timeTypeParam=&bulletinIssnTime=&bulletinIssnTimeStop="
														
 
															-        data = {i.split("=")[0]: i.split("=")[-1] for i in data.split("&")}
														
 
															-        data["businessType"] = menu.id
														
 
															+        start_time = '2天'
														
 
															+        page_size = 1000
														
 
															-        for page_no in range(1, 10):
														
 
															+        # today = datetime.date.today()
														
 
															+        # end_day = today - datetime.timedelta(days=-3)
														
 
															+        for menu in self.menus:
														
 
															+            business_type = menu.type
														
 
															+            for page in range(1, 10):
														
 
															+                msg = f'{business_type}-第{page}页'
														
 
															+                data = {
														
 
															+                    'searchName': '',
														
 
															+                    'searchArea': '',
														
 
															+                    'searchIndustry': '',
														
 
															+                    'centerPlat': '',
														
 
															+                    'businessType': business_type,
														
 
															+                    'searchTimeStart': '',
														
 
															+                    'searchTimeStop': '',
														
 
															+                    'timeTypeParam': '',
														
 
															+                    'bulletinIssnTime': start_time,
														
 
															+                    'bulletinIssnTimeStart': '',
														
 
															+                    'bulletinIssnTimeStop': '',
														
 
															+                    'pageNo': page,
														
 
															+                    'row': page_size,
														
 
															+                }
														
 
															+                response = self.request(data, headers, msg=msg)
														
 
															+                if not response:
														
 
															+                    logger.info(f'{msg}-接口无数据')
														
 
															+                    break
														
 
															+
														
 
															+                resp_json = response.json()
														
 
															+                items = resp_json.get("object")
														
 
															+                if not items:
														
 
															+                    logger.info(f'{msg}-无列表数据')
														
 
															+                    break
														
 
															+
														
 
															+                return_list = items.get("returnlist")
														
 
															+                logger.info(f"{msg}-采集{len(return_list)}条数据")
														
 
															+                total_page = items.get("page").get("totalPage", 0)
														
 
															+                logger.info(f'{business_type}-共{total_page}页')
														
 
															+                self.parse(return_list, menu)
														
 
															+
														
 
															+    def request(self, data, headers, **kwargs):
														
 
															+        logger.info(f"开始请求{kwargs.get('msg')}")
														
 
															+        while True:
														
 
															             try:
														
 
															-                today = datetime.date.today()
														
 
															-                endday = today - datetime.timedelta(days=-3)
														
 
															-                data["pageNo"] = str(page_no)
														
 
															-                data["row"] = '1000'
														
 
															-                data["bulletinIssnTime"] = "2天"
														
 
															-
														
 
															-                if menu.id == '招标公告':
														
 
															-                    # data["bulletinIssnTimeStart"] = str(endday)
														
 
															-                    # data["bulletinIssnTimeStart"] = str(today)
														
 
															-                    data["bulletinIssnTimeStart"] = ""
														
 
															-                    data["bulletinIssnTimeStart"] = ""
														
 
															-                else:
														
 
															-                    # data["searchTimeStop"] = str(endday)
														
 
															-                    #
														
 
															-                    # data["searchTimeStart"] = str(today)
														
 
															-                    data["searchTimeStart"] = ""
														
 
															-                    data["searchTimeStop"] = ""
														
 
															-
														
 
															-                logger.info(f"开始请求第{page_no}页")
														
 
															-                # 发起请求
														
 
															-                res = requests.post(
														
 
															-                    self.url,
														
 
															-                    headers=header,
														
 
															+                request_param = dict(
														
 
															+                    headers=headers,
														
 
															                     data=data,
														
 
															+                    proxies=socks_proxy(),
														
 
															                     timeout=5,
														
 
															-                    proxies=swordfish_proxy()
														
 
															                 )
														
 
															-                res = res.json()
														
 
															-                # 解析结果
														
 
															-                max_page = res.get("object").get("page").get("totalPage") or 0
														
 
															-                list_page_datas = res.get("object").get("returnlist")
														
 
															-                logger.info(f"请求成功,最大{max_page}页-{len(list_page_datas)}条数据")
														
 
															-                # 数据处理
														
 
															-                for jtme in list_page_datas:
														
 
															-                    businessid = jtme.get("businessId")
														
 
															-                    tenderprojectcode = jtme.get("tenderProjectCode")
														
 
															-                    businessobjectname = jtme.get("businessObjectName")
														
 
															-                    transactionplatfcode = jtme.get("transactionPlatfCode")
														
 
															-                    transactionplatfname = jtme.get("transactionPlatfName")
														
 
															-
														
 
															-                    regionname = jtme.get("regionName")
														
 
															-                    city = ''
														
 
															-                    if regionname is not None:
														
 
															-                        city = "" if "市" in regionname else regionname.split(" ")[-1]
														
 
															-
														
 
															-                    if jtme.get("businessObjectName") is None:
														
 
															-                        continue
														
 
															-                    if jtme.get("businessObjectName") == '':
														
 
															-                        continue
														
 
															-
														
 
															-                    item = {
														
 
															-                        "schemaVersion": jtme.get("schemaVersion"),
														
 
															-                        "type": jtme.get("type"),
														
 
															-                        "businessKeyWord": menu.businessKeyWord,
														
 
															-                        "rowGuid": jtme.get("rowGuid"),
														
 
															-                        "site": "中国招标投标公共服务平台",
														
 
															-                        "channel": menu.channel,
														
 
															-                        "area": jtme.get("regionName"),
														
 
															-                        "_d": "comeintime",
														
 
															-                        "comeintime": int2long(int(time.time())),
														
 
															-                        "T": "bidding",
														
 
															-                        "sendflag": "false",
														
 
															-                        "spidercode": menu.code,
														
 
															-                        "city": city,
														
 
															-                        "iscompete": "true",
														
 
															-                        "publishdept": "",
														
 
															-                        "title": jtme.get("businessObjectName"),
														
 
															-                        "href": businessid + "&" + tenderprojectcode + "&" + transactionplatfcode,
														
 
															-                        "publishtime": str(jtme.get("receiveTime")) + " 00:00:00",
														
 
															-                        "l_np_publishtime": int2long(int(time.mktime(time.strptime(jtme.get("receiveTime"), "%Y-%m-%d")))),
														
 
															-                        "detail": "",
														
 
															-                        "contenthtml": "",
														
 
															-                        "infoformat": 1
														
 
															-                    }
														
 
															-                    feature = businessid + "&" + tenderprojectcode + "&" + transactionplatfcode
														
 
															-                    if not redis_exists(feature, self.r):
														
 
															-                        result = self.crawl_list.insert_one(item)
														
 
															-                        logger.info(f"{menu.channel} >>> {result.inserted_id}-{item['title']} --上传成功")
														
 
															-                        redis_set(feature, self.r)
														
 
															+                response = requests.post(self.url, **request_param)
														
 
															+                logger.info(f'{kwargs.get("msg")}--请求成功')
														
 
															+                response.json()  # 检测数据是否请求成功
														
 
															+                return response
														
 
															+            except json.decoder.JSONDecodeError:
														
 
															+                logger.error(f"{kwargs.get('msg')}--代理受限,等待重试")
														
 
															             except Exception as e:
														
 
															-                print(e)
														
 
															-                logger.error(f"请求失败,原因:{e.args}")
														
 
															+                logger.error(f"{kwargs.get('msg')}--请求失败")
														
 
															+                logger.exception(f'异常原因:{e}')
														
 
															+                return
														
 
															+
														
 
															+    def parse(self, items, menu):
														
 
															+        for jtme in items:
														
 
															+            businessid = jtme.get("businessId")
														
 
															+            tenderprojectcode = jtme.get("tenderProjectCode")
														
 
															+            platf_code = jtme.get("transactionPlatfCode")
														
 
															+            href = "&".join([businessid, tenderprojectcode, platf_code])
														
 
															+            publish_time = jtme.get("receiveTime")
														
 
															+            title = jtme.get("businessObjectName")
														
 
															+            if not title:
														
 
															+                continue
														
 
															+
														
 
															+            region = jtme.get('regionName', '') or ''
														
 
															+            if region and len(region.split(' ')) >= 2:
														
 
															+                area, city = region.split(' ')
														
 
															+            elif len(region.split(' ')) == 1:
														
 
															+                area, city = region, ''
														
 
															+            else:
														
 
															+                area, city = '', ''
														
 
															+
														
 
															+            item = {
														
 
															+                "schemaVersion": jtme.get("schemaVersion"),
														
 
															+                "type": jtme.get("type"),
														
 
															+                "businessKeyWord": menu.businessKeyWord,
														
 
															+                "rowGuid": jtme.get("rowGuid"),
														
 
															+                "title": title,
														
 
															+                "href": href,
														
 
															+                "site": "中国招标投标公共服务平台",
														
 
															+                "channel": menu.channel,
														
 
															+                "spidercode": menu.code,
														
 
															+                "area": area,
														
 
															+                "city": city,
														
 
															+                "district": "",
														
 
															+                "comeintime": int2long(int(time.time())),
														
 
															+                "publishtime": publish_time,
														
 
															+                "l_np_publishtime": int2long(date_to_timestamp(publish_time, '%Y-%m-%d')),
														
 
															+                "detail": "",
														
 
															+                "contenthtml": "",
														
 
															+                "T": "bidding",
														
 
															+                "sendflag": "false",
														
 
															+                "iscompete": True,
														
 
															+                "_d": "comeintime",
														
 
															+                "publishdept": "",
														
 
															+                "infoformat": 1
														
 
															+            }
														
 
															+            if not redis_exists(href, self.r):
														
 
															+                result = self.crawl_list.insert_one(item)
														
 
															+                redis_set(href, self.r)
														
 
															+                msg = f"{item['title']} - ObjectId('{result.inserted_id}')"
														
 
															+                logger.info(f"{menu.channel} >>> {msg} --上传成功")
														
 
															 if __name__ == '__main__':