2 years ago · 73209a47a7
--- a/FworkSpider/feapder/VERSION
+++ b/FworkSpider/feapder/VERSION
@@ -7,8 +7,9 @@ Created on 2020/4/21 10:41 PM
 
															 @author: Boris
														
 
															 @email: boris_liu@foxmail.com
														
 
															 """
														
 
															-import os, sys
														
 
															+import os
														
 
															 import re
														
 
															+import sys
														
 
															 sys.path.insert(0, re.sub(r"([\\/]items$)|([\\/]spiders$)", "", os.getcwd()))
														
@@ -16,6 +17,10 @@ __all__ = [
 
															     "AirSpider",
														
 
															     "Spider",
														
 
															     "BatchSpider",
														
 
															+    "BiddingListSpider",
														
 
															+    "BiddingDetailSpider",
														
 
															+    "PlanToBuildListSpider",
														
 
															+    "PlanToBuildDetailSpider",
														
 
															     "BaseParser",
														
 
															     "BatchParser",
														
 
															     "Request",
														
@@ -25,7 +30,15 @@ __all__ = [
 
															     "ArgumentParser",
														
 
															 ]
														
 
															-from feapder.core.spiders import Spider, BatchSpider, AirSpider
														
 
															+from feapder.core.spiders import (
														
 
															+    Spider,
														
 
															+    BatchSpider,
														
 
															+    AirSpider,
														
 
															+    BiddingListSpider,
														
 
															+    BiddingDetailSpider,
														
 
															+    PlanToBuildListSpider,
														
 
															+    PlanToBuildDetailSpider,
														
 
															+)
														
 
															 from feapder.core.base_parser import BaseParser, BatchParser
														
 
															 from feapder.network.request import Request
														
 
															 from feapder.network.response import Response
														
--- a/FworkSpider/feapder/buffer/__init__.py
+++ b/FworkSpider/feapder/buffer/__init__.py
@@ -43,7 +43,7 @@ class ItemBuffer(threading.Thread):
 
															             self._items_queue = Queue(maxsize=MAX_ITEM_COUNT)
														
 
															-            self._table_request = setting.TAB_REQUSETS.format(redis_key=redis_key)
														
 
															+            self._table_request = setting.TAB_REQUESTS.format(redis_key=redis_key)
														
 
															             self._table_failed_items = setting.TAB_FAILED_ITEMS.format(
														
 
															                 redis_key=redis_key
														
 
															             )
														
@@ -99,9 +99,9 @@ class ItemBuffer(threading.Thread):
 
															         return self._mysql_pipeline
														
 
															-    def run(self): # step 1 开始
														
 
															+    def run(self):
														
 
															         self._thread_stop = False
														
 
															-        while not self._thread_stop: # 爬虫不停止，就一直循环刷新
														
 
															+        while not self._thread_stop:
														
 
															             self.flush()
														
 
															             tools.delay_time(1)
														
@@ -111,18 +111,14 @@ class ItemBuffer(threading.Thread):
 
															         self._thread_stop = True
														
 
															         self._started.clear()
														
 
															-    def put_item(self, item): # step 存储数据的入口 将需要存储的数据放入数据管道队列
														
 
															+    def put_item(self, item):
														
 
															         if isinstance(item, Item):
														
 
															             # 入库前的回调
														
 
															-
														
 
															-            if item.item_name == "ListItem":  # 测试框架有用，对listitem不进行存储，正式框架没有这个判断
														
 
															-                return
														
 
															             item.pre_to_db()
														
 
															-            # print(item)
														
 
															-            if item.save: # 根据save字段，判断该条信息是否存储
														
 
															-                self._items_queue.put(item)
														
 
															-        else:
														
 
															+
														
 
															+        if getattr(item, "save", True):  # save=False 不推送入库
														
 
															             self._items_queue.put(item)
														
 
															+
														
 
															     def flush(self):
														
 
															         try:
														
 
															             items = []
														
@@ -132,26 +128,26 @@ class ItemBuffer(threading.Thread):
 
															             items_fingerprints = []
														
 
															             data_count = 0
														
 
															-            while not self._items_queue.empty(): # step 2 数据管道队列不为空时时 不等待直接取值
														
 
															-                data = self._items_queue.get_nowait() # 队列的 不等待直接取值方法，类似get
														
 
															+            while not self._items_queue.empty():
														
 
															+                data = self._items_queue.get_nowait()
														
 
															                 data_count += 1
														
 
															                 # data 分类
														
 
															                 if callable(data):
														
 
															                     callbacks.append(data)
														
 
															-                elif isinstance(data, UpdateItem): # 更新型数据，走更新管道，采集框架只存不更新，可以忽略不看
														
 
															+                elif isinstance(data, UpdateItem):
														
 
															                     update_items.append(data)
														
 
															                 elif isinstance(data, Item):
														
 
															                     items.append(data)
														
 
															-                    if setting.ITEM_FILTER_ENABLE: # item去重，对于当前框架，无效，不看
														
 
															+                    if setting.ITEM_FILTER_ENABLE:
														
 
															                         items_fingerprints.append(data.fingerprint)
														
 
															                 else:  # request-redis
														
 
															                     requests.append(data)
														
 
															-                if data_count >= UPLOAD_BATCH_MAX_SIZE: # step 3 需要存储的数据，达到一定数量后，统一存储
														
 
															+                if data_count >= UPLOAD_BATCH_MAX_SIZE:
														
 
															                     self.__add_item_to_db(
														
 
															                         items, update_items, requests, callbacks, items_fingerprints
														
 
															                     )
														
@@ -163,7 +159,7 @@ class ItemBuffer(threading.Thread):
 
															                     items_fingerprints = []
														
 
															                     data_count = 0
														
 
															-            if data_count: # step 3 管道为空后，将剩余的数据，统一存储
														
 
															+            if data_count:
														
 
															                 self.__add_item_to_db(
														
 
															                     items, update_items, requests, callbacks, items_fingerprints
														
 
															                 )
														
@@ -248,11 +244,8 @@ class ItemBuffer(threading.Thread):
 
															         return datas_dict
														
 
															     def __export_to_db(self, table, datas, is_update=False, update_keys=()):
														
 
															-        # step 3.1.1 打点 记录总条数及每个key情况
														
 
															-        self.check_datas(table=table, datas=datas)
														
 
															-
														
 
															-        for pipeline in self._pipelines: # setting 配置的piplines方法
														
 
															-            if is_update: # 更新方法 不看
														
 
															+        for pipeline in self._pipelines:
														
 
															+            if is_update:
														
 
															                 if table == self._task_table and not isinstance(
														
 
															                     pipeline, MysqlPipeline
														
 
															                 ):
														
@@ -265,7 +258,7 @@ class ItemBuffer(threading.Thread):
 
															                     return False
														
 
															             else:
														
 
															-                if not pipeline.save_items(table, datas): # step 3.1.2 调用pipline的 save_items 方法
														
 
															+                if not pipeline.save_items(table, datas):
														
 
															                     log.error(
														
 
															                         f"{pipeline.__class__.__name__} 保存数据失败. table: {table}  items: {datas}"
														
 
															                     )
														
@@ -281,19 +274,22 @@ class ItemBuffer(threading.Thread):
 
															                 )
														
 
															                 return False
														
 
															+        self.metric_datas(table=table, datas=datas)
														
 
															         return True
														
 
															+    def export_to_db(self, table, datas, **kwargs):
														
 
															+        return self.__export_to_db(table, datas, **kwargs)
														
 
															+
														
 
															     def __add_item_to_db(
														
 
															         self, items, update_items, requests, callbacks, items_fingerprints
														
 
															     ):
														
 
															         export_success = True
														
 
															         self._is_adding_to_db = True
														
 
															-        # 去重 item去重，不看
														
 
															         if setting.ITEM_FILTER_ENABLE:
														
 
															             items, items_fingerprints = self.__dedup_items(items, items_fingerprints)
														
 
															-        # step 分捡 将每个表之间的数据分开 拆分后 原items为空
														
 
															+        # 分捡
														
 
															         items_dict = self.__pick_items(items)
														
 
															         update_items_dict = self.__pick_items(update_items, is_update_item=True)
														
@@ -311,7 +307,7 @@ class ItemBuffer(threading.Thread):
 
															                 % (table, tools.dumps_json(datas, indent=16))
														
 
															             )
														
 
															-            if not self.__export_to_db(table, datas): # step 3.1 导出到数据库
														
 
															+            if not self.__export_to_db(table, datas):
														
 
															                 export_success = False
														
 
															                 failed_items["add"].append({"table": table, "datas": datas})
														
@@ -336,7 +332,7 @@ class ItemBuffer(threading.Thread):
 
															                 failed_items["update"].append({"table": table, "datas": datas})
														
 
															         if export_success:
														
 
															-            # step 3.2 保存成功后，执行的执行回调
														
 
															+            # 执行回调
														
 
															             while callbacks:
														
 
															                 try:
														
 
															                     callback = callbacks.pop(0)
														
@@ -344,17 +340,15 @@ class ItemBuffer(threading.Thread):
 
															                 except Exception as e:
														
 
															                     log.exception(e)
														
 
															-            # step 删除做过的request
														
 
															+            # 删除做过的request
														
 
															             if requests:
														
 
															                 self.redis_db.zrem(self._table_request, requests)
														
 
															-            # 去重入库 不走这个去重
														
 
															+            # 去重入库
														
 
															             if setting.ITEM_FILTER_ENABLE:
														
 
															                 if items_fingerprints:
														
 
															                     self.__class__.dedup.add(items_fingerprints, skip_check=True)
														
 
															         else:
														
 
															-            # step 3.2 保存失败后，执行的执行回调
														
 
															-
														
 
															             failed_items["requests"] = requests
														
 
															             if self.export_retry_times > setting.EXPORT_DATA_MAX_RETRY_TIMES:
														
@@ -412,17 +406,19 @@ class ItemBuffer(threading.Thread):
 
															         self._is_adding_to_db = False
														
 
															-    def check_datas(self, table, datas):
														
 
															+    def metric_datas(self, table, datas):
														
 
															         """
														
 
															         打点 记录总条数及每个key情况
														
 
															         @param table: 表名
														
 
															         @param datas: 数据 列表
														
 
															         @return:
														
 
															         """
														
 
															-        metrics.emit_counter("total count", len(datas), classify=table)
														
 
															+        total_count = 0
														
 
															         for data in datas:
														
 
															+            total_count += 1
														
 
															             for k, v in data.items():
														
 
															                 metrics.emit_counter(k, int(bool(v)), classify=table)
														
 
															+        metrics.emit_counter("total count", total_count, classify=table)
														
 
															     def close(self):
														
 
															         # 调用pipeline的close方法
														
--- a/FworkSpider/feapder/buffer/request_buffer.py
+++ b/FworkSpider/feapder/buffer/request_buffer.py
@@ -34,8 +34,8 @@ class RequestBuffer(threading.Thread):
 
															             self._del_requests_deque = collections.deque()
														
 
															             self._db = RedisDB()
														
 
															-            self._table_request = setting.TAB_REQUSETS.format(redis_key=redis_key)
														
 
															-            self._table_failed_request = setting.TAB_FAILED_REQUSETS.format(
														
 
															+            self._table_request = setting.TAB_REQUESTS.format(redis_key=redis_key)
														
 
															+            self._table_failed_request = setting.TAB_FAILED_REQUESTS.format(
														
 
															                 redis_key=redis_key
														
 
															             )
														
@@ -44,9 +44,9 @@ class RequestBuffer(threading.Thread):
 
															                     name=redis_key, to_md5=False, **setting.REQUEST_FILTER_SETTING
														
 
															                 )  # 默认过期时间为一个月
														
 
															-    def run(self): # step 1 线程入口
														
 
															+    def run(self):
														
 
															         self._thread_stop = False
														
 
															-        while not self._thread_stop: # 每隔一分钟进行一次 将产生的任务存储
														
 
															+        while not self._thread_stop:
														
 
															             try:
														
 
															                 self.__add_request_to_db()
														
 
															             except Exception as e:
														
@@ -94,7 +94,7 @@ class RequestBuffer(threading.Thread):
 
															         callbacks = []
														
 
															         while self._requests_deque:
														
 
															-            request = self._requests_deque.popleft() # 从任务队列中从左取任务（先进先出）
														
 
															+            request = self._requests_deque.popleft()
														
 
															             self._is_adding_to_db = True
														
 
															             if callable(request):
														
--- a/FworkSpider/feapder/commands/create/create_spider.py
+++ b/FworkSpider/feapder/commands/create/create_spider.py
@@ -16,10 +16,10 @@ import feapder.utils.tools as tools
 
															 from .create_init import CreateInit
														
 
															-def deal_file_info(file):
														
 
															+def deal_file_info(file, author):
														
 
															     file = file.replace("{DATE}", tools.get_current_date())
														
 
															-    file = file.replace("{USER}", getpass.getuser())
														
 
															-
														
 
															+    # file = file.replace("{USER}", getpass.getuser())
														
 
															+    file = file.replace("{USER}", author)
														
 
															     return file
														
@@ -57,8 +57,14 @@ class CreateSpider:
 
															             template_path = "batch_spider_template.tmpl"
														
 
															         elif spider_type == 4:
														
 
															             template_path = "spider_list_template.tmpl"
														
 
															+        elif spider_type == 5:
														
 
															+            template_path = "detail_template.tmpl"
														
 
															+        elif spider_type == 6:
														
 
															+            template_path = "njpc_list_template.tmpl"
														
 
															+        elif spider_type == 7:
														
 
															+            template_path = "njpc_detail_template.tmpl"
														
 
															         else:
														
 
															-            raise ValueError("spider type error, support 1 2 3")
														
 
															+            raise ValueError("spider type error, support 1 2 3 4 5 6 7")
														
 
															         template_path = os.path.abspath(
														
 
															             os.path.join(__file__, "../../../templates", template_path)
														
@@ -68,9 +74,9 @@ class CreateSpider:
 
															         return spider_template
														
 
															-    def create_spider(self, spider_template, spider_name):
														
 
															+    def create_spider(self, spider_template, spider_name, author):
														
 
															         spider_template = spider_template.replace("${spider_name}", spider_name)
														
 
															-        spider_template = deal_file_info(spider_template)
														
 
															+        spider_template = deal_file_info(spider_template, author)
														
 
															         return spider_template
														
 
															     def save_spider_to_file(self, spider, spider_name):
														
@@ -89,7 +95,7 @@ class CreateSpider:
 
															         self._create_init.create()
														
 
															-    def create(self, spider_name, spider_type):
														
 
															+    def create(self, spider_name, spider_type, author):
														
 
															         # 检查spider_name
														
 
															         if not re.search("^[a-zA-Z][a-zA-Z0-9_]*$", spider_name):
														
 
															             raise Exception("爬虫名不符合命名规范，请用下划线命名或驼峰命名方式")
														
@@ -97,5 +103,5 @@ class CreateSpider:
 
															         if spider_name.islower():
														
 
															             spider_name = tools.key2hump(spider_name)
														
 
															         spider_template = self.get_spider_template(spider_type)
														
 
															-        spider = self.create_spider(spider_template, spider_name)
														
 
															+        spider = self.create_spider(spider_template, spider_name, author)
														
 
															         self.save_spider_to_file(spider, spider_name)
														
--- a/FworkSpider/feapder/commands/shell.py
+++ b/FworkSpider/feapder/commands/shell.py
@@ -58,13 +58,13 @@ def fetch_curl(curl_args):
 
															 def usage():
														
 
															     """
														
 
															-下载调试器
														
 
															+    下载调试器
														
 
															-usage: feapder shell [options] [args]
														
 
															+    usage: feapder shell [options] [args]
														
 
															-optional arguments:
														
 
															-  -u, --url     抓取指定url
														
 
															-  -c, --curl    抓取curl格式的请求
														
 
															+    optional arguments:
														
 
															+      -u, --url     抓取指定url
														
 
															+      -c, --curl    抓取curl格式的请求
														
 
															     """
														
 
															     print(usage.__doc__)
														
--- a/FworkSpider/feapder/core/__init__.py
+++ b/FworkSpider/feapder/core/__init__.py
@@ -8,15 +8,11 @@ Created on 2018-07-25 11:41:57
 
															 @email:  boris_liu@foxmail.com
														
 
															 """
														
 
															 import os
														
 
															-import traceback
														
 
															-import feapder
														
 
															 import feapder.utils.tools as tools
														
 
															 from feapder.db.mysqldb import MysqlDB
														
 
															 from feapder.network.item import UpdateItem
														
 
															 from feapder.utils.log import log
														
 
															-from feapder.utils.aliyun import UploadOSS
														
 
															-from feapder.db.redisdb import RedisDB
														
 
															 class BaseParser(object):
														
@@ -30,6 +26,16 @@ class BaseParser(object):
 
															         pass
														
 
															+        """
														
 
															+        @summary: 下载中间件 可修改请求的一些参数, 或可自定义下载，然后返回 request, response
														
 
															+        ---------
														
 
															+        @param request:
														
 
															+        ---------
														
 
															+        @result: return request / request, response
														
 
															+        """
														
 
															+
														
 
															+        pass
														
 
															+
														
 
															     def download_midware(self, request):
														
 
															         """
														
 
															         @summary: 下载中间件 可修改请求的一些参数, 或可自定义下载，然后返回 request, response
														
@@ -91,66 +97,6 @@ class BaseParser(object):
 
															         """
														
 
															         pass
														
 
															-    def infinite_crawl(self,request,response):
														
 
															-        menu = request.item
														
 
															-        list_item = request.list_item
														
 
															-        if self.platform_next_page:  # real_page为连续翻页采集为0
														
 
															-            if getattr(request, 'real_page', None) is not None:
														
 
															-                request.real_page = 0
														
 
															-
														
 
															-            request.real_page += 1
														
 
															-            if list_item.rel_count > 0:
														
 
															-                request.real_page = 0
														
 
															-
														
 
															-            if request.real_page <= 5 and request.page < self.platform_max_page:
														
 
															-                request.page += 1
														
 
															-                request.callback = self.parse
														
 
															-                if getattr(request, 'new_callback', None) is not None:
														
 
															-                    request.callback = eval(request.new_callback)
														
 
															-                    yield request
														
 
															-        else:
														
 
															-            if request.page < menu.get("crawl_page"):
														
 
															-                request.page += 1
														
 
															-                request.callback = self.parse
														
 
															-                if getattr(request, 'new_callback', None) is not None:
														
 
															-                    request.callback = eval(request.new_callback)
														
 
															-                    yield request
														
 
															-
														
 
															-    def push_files(self, request, response):
														
 
															-        """
														
 
															-        @summary: 下载 并上传附件文件，传进来的request的auto_request必须为False，否则可能会因为响应失败而无法下载文件
														
 
															-        ---------
														
 
															-        @param request:  request.url 为文件下载地址， 该方法需要自行调用
														
 
															-        request.INFO  为上传文件时所需要提供的部分参数  必传
														
 
															-         info = {
														
 
															-            "org_url": "http://www...",  # 文件下载连接
														
 
															-            "filename": f"{list_item.title}.docx",  # 文件名
														
 
															-            "channel": list_item.channel,
														
 
															-            "ftype": 'docx,zip,ftp', # 文件类型
														
 
															-        }
														
 
															-        request.headers 则存放请求的必要参数，如：parmas，headers  必传
														
 
															-        ---------
														
 
															-        @result: request / item / callback / None (返回值必须可迭代)，正常处理为 None 即可
														
 
															-        """
														
 
															-        list_item = request.item
														
 
															-        res = None
														
 
															-        for i in range(5):
														
 
															-            try:
														
 
															-                parameter = request.parameter
														
 
															-                res = UploadOSS().get_state(request.info,**parameter)
														
 
															-            except:
														
 
															-                log.error(traceback.format_exc())
														
 
															-            if res is not None:
														
 
															-                list_item.projectinfo = res
														
 
															-                yield list_item
														
 
															-                log.info(f"{res.get('filename')}附件下载完成，大小为：{res.get('size')},fid为：{res.get('fid')}")
														
 
															-                return
														
 
															-            else:
														
 
															-                log.error(f"{res.get('filename')}附件下载失败，失败连接为：{res.get('org_url')}")
														
 
															-        if res is None:
														
 
															-            _db = RedisDB()
														
 
															-            request_dict = request.to_dict
														
 
															-            _db.zadd("forwork:files_failed", request_dict)
														
 
															     def start_callback(self):
														
 
															         """
														
--- a/FworkSpider/feapder/core/collector.py
+++ b/FworkSpider/feapder/core/collector.py
@@ -7,10 +7,9 @@ Created on 2016-12-23 11:24
 
															 @author: Boris
														
 
															 @email: boris_liu@foxmail.com
														
 
															 """
														
 
															-
														
 
															-import collections
														
 
															 import threading
														
 
															 import time
														
 
															+from queue import Queue, Empty
														
 
															 import feapder.setting as setting
														
 
															 import feapder.utils.tools as tools
														
@@ -20,6 +19,7 @@ from feapder.utils.log import log
 
															 class Collector(threading.Thread):
														
 
															+
														
 
															     def __init__(self, redis_key):
														
 
															         """
														
 
															         @summary:
														
@@ -34,9 +34,9 @@ class Collector(threading.Thread):
 
															         self._thread_stop = False
														
 
															-        self._todo_requests = collections.deque()
														
 
															+        self._todo_requests = Queue(maxsize=setting.COLLECTOR_TASK_COUNT)
														
 
															-        self._tab_requests = setting.TAB_REQUSETS.format(redis_key=redis_key)
														
 
															+        self._tab_requests = setting.TAB_REQUESTS.format(redis_key=redis_key)
														
 
															         self._tab_spider_status = setting.TAB_SPIDER_STATUS.format(redis_key=redis_key)
														
 
															         self._spider_mark = tools.get_localhost_ip() + f"-{time.time()}"
														
@@ -52,7 +52,7 @@ class Collector(threading.Thread):
 
															         self._thread_stop = False
														
 
															         while not self._thread_stop:
														
 
															             try:
														
 
															-                self.__report_node_heartbeat() # step 汇报节点心跳
														
 
															+                self.__report_node_heartbeat()  # step 汇报节点心跳
														
 
															                 self.__input_data()
														
 
															             except Exception as e:
														
 
															                 log.exception(e)
														
@@ -66,25 +66,29 @@ class Collector(threading.Thread):
 
															         self._started.clear()
														
 
															     def __input_data(self):
														
 
															-        current_timestamp = tools.get_current_timestamp()
														
 
															-        if len(self._todo_requests) >= self._request_count: # step 待执行任务数量>设置的任务数量上限 不处理
														
 
															+        if self._request_count / setting.SPIDER_THREAD_COUNT > 1 and (
														
 
															+            self._todo_requests.qsize() > setting.SPIDER_THREAD_COUNT
														
 
															+            or self._todo_requests.qsize() >= self._todo_requests.maxsize
														
 
															+        ):  # 当任务总数大于线程数 且 内存队列持有任务总数大于线程数 此时不添加任务
														
 
															+            time.sleep(0.1)
														
 
															             return
														
 
															+        current_timestamp = tools.get_current_timestamp()
														
 
															+
														
 
															         request_count = self._request_count  # 先赋值
														
 
															-        # step 查询最近有心跳的节点数量
														
 
															+        # 查询最近有心跳的节点数量
														
 
															         spider_count = self._db.zget_count(
														
 
															             self._tab_spider_status,
														
 
															             priority_min=current_timestamp - (self._interval + 10),
														
 
															             priority_max=current_timestamp,
														
 
															         )
														
 
															-        # step 根据等待节点数量，动态分配request
														
 
															+        # 根据等待节点数量，动态分配request
														
 
															         if spider_count:
														
 
															             # 任务数量
														
 
															             task_count = self._db.zget_count(self._tab_requests)
														
 
															             # 动态分配的数量 = 任务数量 / 休息的节点数量 + 1
														
 
															             request_count = task_count // spider_count + 1
														
 
															-        # step 判断 request_count 数量是否大于 设置的上限 ，大于上限，重置
														
 
															         request_count = (
														
 
															             request_count
														
 
															             if request_count <= self._request_count
														
@@ -108,7 +112,7 @@ class Collector(threading.Thread):
 
															             if lose_count:
														
 
															                 log.info("重置丢失任务完毕，共{}条".format(len(datas)))
														
 
															-        # 取任务，只取当前时间搓以内的任务，同时将任务分数修改为 current_timestamp + setting.REQUEST_LOST_TIMEOUT
														
 
															+        # 取任务，只取当前时间搓以内的任务，同时将取走的任务分数修改为 current_timestamp + setting.REQUEST_LOST_TIMEOUT
														
 
															         requests_list = self._db.zrangebyscore_set_score(
														
 
															             self._tab_requests,
														
 
															             priority_min="-inf",
														
@@ -117,10 +121,14 @@ class Collector(threading.Thread):
 
															             count=request_count,
														
 
															         )
														
 
															+        log.debug("领取新任务完毕，共{}条".format(len(requests_list)))
														
 
															+
														
 
															         if requests_list:
														
 
															             self._is_collector_task = True
														
 
															             # 存request
														
 
															             self.__put_requests(requests_list)
														
 
															+        else:
														
 
															+            time.sleep(0.1)
														
 
															     def __report_node_heartbeat(self):
														
 
															         """
														
@@ -150,28 +158,37 @@ class Collector(threading.Thread):
 
															             except Exception as e:
														
 
															                 log.exception(
														
 
															                     """
														
 
															-                error %s
														
 
															-                request %s
														
 
															-                """
														
 
															+                    error %s
														
 
															+                    request %s
														
 
															+                    """
														
 
															                     % (e, request)
														
 
															                 )
														
 
															-
														
 
															                 request_dict = None
														
 
															             if request_dict:
														
 
															-                self._todo_requests.append(request_dict)
														
 
															-
														
 
															-    def get_requests(self, count):
														
 
															-        requests = []
														
 
															-        count = count if count <= len(self._todo_requests) else len(self._todo_requests)
														
 
															-        while count:
														
 
															-            requests.append(self._todo_requests.popleft())
														
 
															-            count -= 1
														
 
															+                self._todo_requests.put(request_dict)
														
 
															-        return requests
														
 
															+    def get_request(self):
														
 
															+        try:
														
 
															+            request = self._todo_requests.get(timeout=1)
														
 
															+            return request
														
 
															+        except Empty as e:
														
 
															+            return None
														
 
															     def get_requests_count(self):
														
 
															-        return len(self._todo_requests) or self._db.zget_count(self._tab_requests) or 0
														
 
															+        return (
														
 
															+            self._todo_requests.qsize() or self._db.zget_count(self._tab_requests) or 0
														
 
															+        )
														
 
															     def is_collector_task(self):
														
 
															         return self._is_collector_task
														
 
															+
														
 
															+    def get_spider_count(self):
														
 
															+        return self._db.zget_count(
														
 
															+            self._tab_spider_status,
														
 
															+            priority_min=tools.get_current_timestamp() - (self._interval + 10),
														
 
															+            priority_max=tools.get_current_timestamp(),
														
 
															+        )
														
 
															+
														
 
															+    def delete_spider_node(self):
														
 
															+        self._db.zrem(self._tab_spider_status, self._spider_mark)
														
--- a/FworkSpider/feapder/core/handle_failed_requests.py
+++ b/FworkSpider/feapder/core/handle_failed_requests.py
@@ -24,7 +24,7 @@ class HandleFailedRequests(object):
 
															         self._redisdb = RedisDB()
														
 
															         self._request_buffer = RequestBuffer(self._redis_key)
														
 
															-        self._table_failed_request = setting.TAB_FAILED_REQUSETS.format(
														
 
															+        self._table_failed_request = setting.TAB_FAILED_REQUESTS.format(
														
 
															             redis_key=redis_key
														
 
															         )
														
--- a/FworkSpider/feapder/core/parser_control.py
+++ b/FworkSpider/feapder/core/parser_control.py
--- a/FworkSpider/feapder/core/scheduler.py
+++ b/FworkSpider/feapder/core/scheduler.py
@@ -13,29 +13,34 @@ import threading
 
															 import time
														
 
															 from collections import Iterable
														
 
															-
														
 
															 import feapder.setting as setting
														
 
															 import feapder.utils.tools as tools
														
 
															 from feapder.buffer.item_buffer import ItemBuffer
														
 
															 from feapder.buffer.request_buffer import RequestBuffer
														
 
															 from feapder.core.base_parser import BaseParser
														
 
															 from feapder.core.collector import Collector
														
 
															+from feapder.core.handle_failed_items import HandleFailedItems
														
 
															 from feapder.core.handle_failed_requests import HandleFailedRequests
														
 
															 from feapder.core.parser_control import PaserControl
														
 
															 from feapder.db.redisdb import RedisDB
														
 
															 from feapder.network.item import Item
														
 
															 from feapder.network.request import Request
														
 
															+from feapder.utils import metrics
														
 
															 from feapder.utils.log import log
														
 
															 from feapder.utils.redis_lock import RedisLock
														
 
															-from feapder.utils import metrics
														
 
															-SPIDER_START_TIME_KEY = "spider_start_time"
														
 
															+SPIDER_UUID = tools.get_uuid()
														
 
															+SPIDER_START_TIME = "spider_start_time"
														
 
															+SPIDER_START_TIME_KEY = SPIDER_START_TIME + "#" + SPIDER_UUID
														
 
															 SPIDER_END_TIME_KEY = "spider_end_time"
														
 
															 SPIDER_LAST_TASK_COUNT_RECORD_TIME_KEY = "last_task_count_record_time"
														
 
															+
														
 
															 class Obj(object):
														
 
															     def __init__(self, dict_):
														
 
															         self.__dict__.update(dict_)
														
 
															+
														
 
															+
														
 
															 class Scheduler(threading.Thread):
														
 
															     __custom_setting__ = {}
														
@@ -78,7 +83,15 @@ class Scheduler(threading.Thread):
 
															             else:
														
 
															                 setattr(setting, key, value)
														
 
															-
														
 
															+        # 历史爬虫[redis_key]
														
 
															+        for item in sys.argv[1:]:
														
 
															+            if item.startswith("--purpose"):
														
 
															+                val = item.split('=')[-1]
														
 
															+                if not redis_key.endswith(val):
														
 
															+                    # 历史爬虫需要单独的redis_key,防止增量爬虫
														
 
															+                    # 与历史爬虫共用同一个redis_key,出现增量爬虫断点续采的情况
														
 
															+                    redis_key += f'_{val}'
														
 
															+                    
														
 
															         self._redis_key = redis_key or setting.REDIS_KEY
														
 
															         if not self._redis_key:
														
 
															             raise Exception(
														
@@ -129,11 +142,12 @@ class Scheduler(threading.Thread):
 
															         self._spider_name = redis_key
														
 
															         self._project_name = redis_key.split(":")[0]
														
 
															+        self._task_table = task_table
														
 
															         self._tab_spider_time = setting.TAB_SPIDER_TIME.format(redis_key=redis_key)
														
 
															         self._tab_spider_status = setting.TAB_SPIDER_STATUS.format(redis_key=redis_key)
														
 
															-        self._tab_requests = setting.TAB_REQUSETS.format(redis_key=redis_key)
														
 
															-        self._tab_failed_requests = setting.TAB_FAILED_REQUSETS.format(
														
 
															+        self._tab_requests = setting.TAB_REQUESTS.format(redis_key=redis_key)
														
 
															+        self._tab_failed_requests = setting.TAB_FAILED_REQUESTS.format(
														
 
															             redis_key=redis_key
														
 
															         )
														
@@ -171,23 +185,16 @@ class Scheduler(threading.Thread):
 
															             raise ValueError("类型错误，爬虫需继承feapder.BaseParser或feapder.BatchParser")
														
 
															     def run(self):  # STEP 1 爬虫框架入口
														
 
															-        if not self.is_reach_next_spider_time(): # STEP 2 检测爬虫是否到达执行时间
														
 
															+        if not self.is_reach_next_spider_time():  # STEP 2 检测爬虫是否到达执行时间
														
 
															             return
														
 
															-        self._start() # STEP 3 开始运行爬虫
														
 
															+        self._start()  # STEP 3 开始运行爬虫
														
 
															-        while True: # step 4 对爬虫状态的一个监控
														
 
															+        while True:  # step 4 对爬虫状态的一个监控
														
 
															             try:
														
 
															                 if self.all_thread_is_done(): # Step 5 判断爬虫是否运行完成
														
 
															                     if not self._is_notify_end:
														
 
															                         self.spider_end()  # 跑完一轮
														
 
															-                        self.record_spider_state(  # step 6 应该是一个通知爬虫结束的方法
														
 
															-                            spider_type=1,
														
 
															-                            state=1,
														
 
															-                            spider_end_time=tools.get_current_date(),
														
 
															-                            batch_interval=self._batch_interval,
														
 
															-                        )
														
 
															-
														
 
															                         self._is_notify_end = True
														
 
															                     if not self._keep_alive: # step 7 如果不是常驻爬虫 停止所有线程
														
@@ -197,7 +204,7 @@ class Scheduler(threading.Thread):
 
															                 else:
														
 
															                     self._is_notify_end = False
														
 
															-                self.check_task_status() # step 8 检查任务状态，并进行告警通知
														
 
															+                self.check_task_status()  # step 8 检查任务状态，并进行告警通知
														
 
															             except Exception as e:
														
 
															                 log.exception(e)
														
@@ -207,15 +214,8 @@ class Scheduler(threading.Thread):
 
															     def __add_task(self):
														
 
															         # 启动parser 的 start_requests
														
 
															         self.spider_begin()  # 不自动结束的爬虫此处只能执行一遍
														
 
															-        self.record_spider_state(
														
 
															-            spider_type=1,
														
 
															-            state=0,
														
 
															-            batch_date=tools.get_current_date(),
														
 
															-            spider_start_time=tools.get_current_date(),
														
 
															-            batch_interval=self._batch_interval,
														
 
															-        )
														
 
															-        # 判断任务池中属否还有任务，若有接着抓取
														
 
															+        # 判断任务池中属否还有任务，若有接着抓取，若无则生产新任务
														
 
															         todo_task_count = self._collector.get_requests_count()
														
 
															         if todo_task_count:
														
 
															             log.info("检查到有待做任务 %s 条，不重下发新任务，将接着上回异常终止处继续抓取" % todo_task_count)
														
@@ -227,17 +227,17 @@ class Scheduler(threading.Thread):
 
															                     raise Exception("%s.%s返回值必须可迭代" % (parser.name, "start_requests"))
														
 
															                 result_type = 1
														
 
															-                for result in results or []: # step 对yield 的数据进行判断处理
														
 
															-                    if isinstance(result, Request): # Request 加入到任务队列
														
 
															+                for result in results or []:  # step 对yield 的数据进行判断处理
														
 
															+                    if isinstance(result, Request):  # Request 加入到任务队列
														
 
															                         result.parser_name = result.parser_name or parser.name
														
 
															                         self._request_buffer.put_request(result)
														
 
															                         result_type = 1
														
 
															-                    elif isinstance(result, Item): # Item 数据，存入到数据管道队列，等待存储
														
 
															+                    elif isinstance(result, Item):  # Item 数据，存入到数据管道队列，等待存储
														
 
															                         self._item_buffer.put_item(result)
														
 
															                         result_type = 2
														
 
															-                    elif callable(result):  # callbale的request可能是更新数据库操作的函数
														
 
															+                    elif callable(result):  # callable 的 request 可能是更新数据库操作的函数
														
 
															                         if result_type == 1:
														
 
															                             self._request_buffer.put_request(result)
														
 
															                         else:
														
@@ -253,12 +253,21 @@ class Scheduler(threading.Thread):
 
															                 self._item_buffer.flush()
														
 
															     def _start(self):
														
 
															+        # 将失败的item入库
														
 
															+        if setting.RETRY_FAILED_ITEMS:
														
 
															+            handle_failed_items = HandleFailedItems(
														
 
															+                redis_key=self._redis_key,
														
 
															+                task_table=self._task_table,
														
 
															+                item_buffer=self._item_buffer,
														
 
															+            )
														
 
															+            handle_failed_items.reput_failed_items_to_db()
														
 
															-        self._request_buffer.start()  # STEP 3.1 启动request_buffer -- 任务管理器， 负责缓冲添加到数据库中的request
														
 
															-
														
 
															-        self._item_buffer.start()  # STEP 3.2 启动item_buffer -- 管道管理器 责缓冲添加到数据库中的item， 由该manager统一添加。防止多线程同时访问数据库
														
 
															-
														
 
															-        self._collector.start()  # STEP 3.3 启动collector  -- 任务管理 ，根据节点和任务，平均分配给每个节点
														
 
															+        # STEP 3.1 启动request_buffer -- 任务管理器， 负责缓冲添加到数据库中的request
														
 
															+        self._request_buffer.start()
														
 
															+        # STEP 3.2 启动item_buffer -- 管道管理器 责缓冲添加到数据库中的item， 由该manager统一添加。防止多线程同时访问数据库
														
 
															+        self._item_buffer.start()
														
 
															+        # STEP 3.3 启动collector  -- 任务管理 ，根据节点和任务，平均分配给每个节点
														
 
															+        self._collector.start()
														
 
															         # 启动parser control
														
 
															         for i in range(self._thread_count):
														
@@ -293,7 +302,8 @@ class Scheduler(threading.Thread):
 
															                 self.__add_task()
														
 
															     def all_thread_is_done(self):
														
 
															-        for i in range(3):  # Stress 降低偶然性, 因为各个环节不是并发的，很有可能当时状态为假，但检测下一条时该状态为真。一次检测很有可能遇到这种偶然性
														
 
															+        # Stress 降低偶然性, 因为各个环节不是并发的，很有可能当时状态为假，但检测下一条时该状态为真。一次检测很有可能遇到这种偶然性
														
 
															+        for i in range(3):
														
 
															             # STEP 5.1 检测 collector 状态
														
 
															             if (
														
 
															                 self._collector.is_collector_task()
														
@@ -320,7 +330,7 @@ class Scheduler(threading.Thread):
 
															             ):
														
 
															                 return False
														
 
															-            tools.delay_time(1) # 休眠一分钟
														
 
															+            tools.delay_time(1)  # 休眠1秒
														
 
															         return True
														
@@ -336,6 +346,40 @@ class Scheduler(threading.Thread):
 
															         else:
														
 
															             return
														
 
															+        # 检查失败任务数量 超过1000 报警，
														
 
															+        failed_count = self._redisdb.zget_count(self._tab_failed_requests)
														
 
															+        print('<<<<<<<<<<<<<<<<<<<<<<<<<<<< 失败次数：', failed_count)
														
 
															+        if failed_count > setting.WARNING_FAILED_COUNT:
														
 
															+            # 发送报警
														
 
															+            msg = "《%s》爬虫当前失败任务 %s, 请检查爬虫是否正常" % (self._spider_name, failed_count)
														
 
															+            log.error(msg)
														
 
															+            self.send_msg(
														
 
															+                msg,
														
 
															+                level="error",
														
 
															+                message_prefix="《%s》爬虫当前失败任务数报警" % (self._spider_name),
														
 
															+            )
														
 
															+
														
 
															+        # parser_control实时统计已做任务数及失败任务数，若成功率<0.5 则报警
														
 
															+        failed_task_count, success_task_count = PaserControl.get_task_status_count()
														
 
															+        total_count = success_task_count + failed_task_count
														
 
															+        if total_count > 0:
														
 
															+            task_success_rate = success_task_count / total_count
														
 
															+            if task_success_rate < 0.5:
														
 
															+                # 发送报警
														
 
															+                msg = "《%s》爬虫当前任务成功数%s, 失败数%s, 成功率 %.2f, 请检查爬虫是否正常" % (
														
 
															+                    self._spider_name,
														
 
															+                    success_task_count,
														
 
															+                    failed_task_count,
														
 
															+                    task_success_rate,
														
 
															+                )
														
 
															+                log.error(msg)
														
 
															+                self.send_msg(
														
 
															+                    msg,
														
 
															+                    level="error",
														
 
															+                    message_prefix="《%s》爬虫当前任务成功率报警" % (self._spider_name),
														
 
															+                )
														
 
															+
														
 
															+        # 判断任务数是否变化
														
 
															         # step 检查redis中任务状态，若连续20分钟内任务数量未发生变化（parser可能卡死），则发出报警信息
														
 
															         task_count = self._redisdb.zget_count(self._tab_requests)
														
@@ -346,7 +390,7 @@ class Scheduler(threading.Thread):
 
															                     self._tab_spider_time,
														
 
															                     SPIDER_LAST_TASK_COUNT_RECORD_TIME_KEY,
														
 
															                     tools.get_current_timestamp(),
														
 
															-                )  # 多进程会重复发消息， 使用reids记录上次统计时间
														
 
															+                )  # 多进程会重复发消息， 使用redis记录上次统计时间
														
 
															             else:
														
 
															                 # step 判断时间间隔是否超过20分钟
														
 
															                 lua = """
														
@@ -357,7 +401,8 @@ class Scheduler(threading.Thread):
 
															                     -- 取值
														
 
															                     local last_timestamp = redis.call('hget', KEYS[1], field)
														
 
															                     if last_timestamp and current_timestamp - last_timestamp >= 1200 then
														
 
															-                        return current_timestamp - last_timestamp -- 返回任务停滞时间 秒
														
 
															+                        -- 返回任务停滞时间 秒
														
 
															+                        return current_timestamp - last_timestamp 
														
 
															                     end
														
 
															                     if not last_timestamp then
														
@@ -382,49 +427,15 @@ class Scheduler(threading.Thread):
 
															                     msg = "{}  爬虫任务停滞 {}，请检查爬虫是否正常".format(
														
 
															                         self._spider_name, tools.format_seconds(overtime)
														
 
															                     )
														
 
															-                    log.error(msg)  # TODO 这一步可以加一个print，在平台的日志框里输出
														
 
															+                    log.error(msg) # TODO 这一步可以加一个print，在平台的日志框里输出
														
 
															                     self.send_msg(
														
 
															                         msg,
														
 
															                         level="error",
														
 
															                         message_prefix="《{}》爬虫任务停滞".format(self._spider_name),
														
 
															                     )
														
 
															-
														
 
															         else:
														
 
															             self._last_task_count = 0
														
 
															-        # 检查失败任务数量 超过1000 报警，
														
 
															-        failed_count = self._redisdb.zget_count(self._tab_failed_requests)
														
 
															-        print('<<<<<<<<<<<<<<<<<<<<<<<<<<<<失败次数：',failed_count)
														
 
															-        if failed_count > setting.WARNING_FAILED_COUNT:
														
 
															-            # 发送报警
														
 
															-            msg = "《%s》爬虫当前失败任务 %s, 请检查爬虫是否正常" % (self._spider_name, failed_count)
														
 
															-            log.error(msg)
														
 
															-            self.send_msg(
														
 
															-                msg,
														
 
															-                level="error",
														
 
															-                message_prefix="《%s》爬虫当前失败任务数报警" % (self._spider_name),
														
 
															-            )
														
 
															-
														
 
															-        # parser_control实时统计已做任务数及失败任务数，若成功率<0.5 则报警
														
 
															-        failed_task_count, success_task_count = PaserControl.get_task_status_count()
														
 
															-        total_count = success_task_count + failed_task_count
														
 
															-        if total_count > 0:
														
 
															-            task_success_rate = success_task_count / total_count
														
 
															-            if task_success_rate < 0.5:
														
 
															-                # 发送报警
														
 
															-                msg = "《%s》爬虫当前任务成功数%s, 失败数%s, 成功率 %.2f, 请检查爬虫是否正常" % (
														
 
															-                    self._spider_name,
														
 
															-                    success_task_count,
														
 
															-                    failed_task_count,
														
 
															-                    task_success_rate,
														
 
															-                )
														
 
															-                log.error(msg)
														
 
															-                self.send_msg(
														
 
															-                    msg,
														
 
															-                    level="error",
														
 
															-                    message_prefix="《%s》爬虫当前任务成功率报警" % (self._spider_name),
														
 
															-                )
														
 
															-
														
 
															         # 检查入库失败次数
														
 
															         if self._item_buffer.export_falied_times > setting.EXPORT_DATA_MAX_FAILED_TIMES:
														
 
															             msg = "《{}》爬虫导出数据失败，失败次数：{}， 请检查爬虫是否正常".format(
														
@@ -450,6 +461,11 @@ class Scheduler(threading.Thread):
 
															                 if table != self._tab_spider_time:
														
 
															                     log.info("正在删除key %s" % table)
														
 
															                     redis.clear(table)
														
 
															+                else:
														
 
															+                    keys = redis.hgetall(table)
														
 
															+                    for key in keys:
														
 
															+                        if key.startswith(SPIDER_START_TIME):
														
 
															+                            redis.hdel(table, key)
														
 
															     def _stop_all_thread(self):
														
 
															         self._request_buffer.stop()
														
@@ -472,9 +488,12 @@ class Scheduler(threading.Thread):
 
															     def get_argvs(self):
														
 
															         argvs = {"next_page": False, "max_page": 10}
														
 
															         for item in sys.argv[1:]:
														
 
															-            print(item)
														
 
															+            # print(item)
														
 
															             if item.startswith("--"):
														
 
															-                argvs[item.replace("--", "").split('=')[0]] = eval(item.split('=')[-1]) # 此处使用eval的原因是字符串转bool或int
														
 
															+                key = item.replace("--", "").split('=')[0]
														
 
															+                val = item.split('=')[-1]
														
 
															+                if key != 'purpose':
														
 
															+                    argvs[key] = eval(val)  # 此处使用eval的原因是字符串转bool或int
														
 
															         return json.loads(json.dumps(argvs), object_hook=Obj)
														
 
															     def spider_begin(self):
														
@@ -489,8 +508,9 @@ class Scheduler(threading.Thread):
 
															             self._begin_callback()
														
 
															         for parser in self._parsers:
														
 
															-            parser.platform_next_page = self.get_argvs().next_page
														
 
															-            parser.platform_max_page = self.get_argvs().max_page
														
 
															+            parameter = self.get_argvs()
														
 
															+            parser.platform_next_page = parameter.next_page
														
 
															+            parser.platform_max_page = parameter.max_page
														
 
															             parser.start_callback()
														
 
															         # 记录开始时间
														
@@ -503,7 +523,7 @@ class Scheduler(threading.Thread):
 
															             # 发送消息
														
 
															             # self.send_msg("《%s》爬虫开始" % self._spider_name)
														
 
															-    def spider_end(self): # step end 爬虫结束时的一些操作
														
 
															+    def spider_end(self):  # step end 爬虫结束时的一些操作
														
 
															         self.record_end_time()
														
 
															         if self._end_callback:  # 系统自带的回调，如果自定义回调，则这个回调不会执行
														
@@ -511,8 +531,8 @@ class Scheduler(threading.Thread):
 
															         for parser in self._parsers:
														
 
															             if not self._keep_alive:
														
 
															-                parser.close() # 爬虫可自定义close
														
 
															-            parser.end_callback() # 调用结束回调函数，可在爬虫自定义
														
 
															+                parser.close()  # 爬虫可自定义close
														
 
															+            parser.end_callback()  # 调用结束回调函数，可在爬虫自定义
														
 
															         if not self._keep_alive:
														
 
															             # 关闭webdirver
														
@@ -530,21 +550,24 @@ class Scheduler(threading.Thread):
 
															         )
														
 
															         if data:
														
 
															             begin_timestamp = int(data)
														
 
															-
														
 
															-            spand_time = tools.get_current_timestamp() - begin_timestamp
														
 
															-
														
 
															+            elapsed_time = tools.get_current_timestamp() - begin_timestamp
														
 
															             msg = "《%s》爬虫结束，耗时 %s" % (
														
 
															                 self._spider_name,
														
 
															-                tools.format_seconds(spand_time),
														
 
															+                tools.format_seconds(elapsed_time),
														
 
															             )
														
 
															             log.info(msg)
														
 
															             # self.send_msg(msg)
														
 
															         if self._keep_alive:
														
 
															-            log.info("爬虫不自动结束， 等待下一轮任务...")
														
 
															+            log.info("爬虫不自动结束，等待下一轮任务...")
														
 
															         else:
														
 
															-            self.delete_tables(self._tab_spider_status)
														
 
															+            if self._collector.get_spider_count() <= 1:
														
 
															+                self.delete_tables(self._tab_spider_time)
														
 
															+                self.delete_tables(self._tab_spider_status)
														
 
															+            else:
														
 
															+                # 清除关闭爬虫的心跳记录,防止删除任务共享表,造成爬虫异常僵死
														
 
															+                self._collector.delete_spider_node()
														
 
															     def record_end_time(self):
														
 
															         # 记录结束时间
														
@@ -578,17 +601,6 @@ class Scheduler(threading.Thread):
 
															         return True
														
 
															-    def record_spider_state(
														
 
															-        self,
														
 
															-        spider_type,
														
 
															-        state,
														
 
															-        batch_date=None,
														
 
															-        spider_start_time=None,
														
 
															-        spider_end_time=None,
														
 
															-        batch_interval=None,
														
 
															-    ):
														
 
															-        pass
														
 
															-
														
 
															     def join(self, timeout=None):
														
 
															         """
														
 
															         重写线程的join
														
--- a/FworkSpider/feapder/core/spiders/__init__.py
+++ b/FworkSpider/feapder/core/spiders/__init__.py
@@ -8,8 +8,22 @@ Created on 2020/4/22 12:08 AM
 
															 @email: boris_liu@foxmail.com
														
 
															 """
														
 
															-__all__ = ["AirSpider", "Spider", "BatchSpider"]
														
 
															+__all__ = [
														
 
															+    "AirSpider",
														
 
															+    "Spider",
														
 
															+    "BatchSpider",
														
 
															+    "BiddingListSpider",
														
 
															+    "BiddingDetailSpider",
														
 
															+    "PlanToBuildListSpider",
														
 
															+    "PlanToBuildDetailSpider",
														
 
															+]
														
 
															 from feapder.core.spiders.air_spider import AirSpider
														
 
															-from feapder.core.spiders.spider import Spider
														
 
															 from feapder.core.spiders.batch_spider import BatchSpider
														
 
															+from feapder.core.spiders.spider import (
														
 
															+    Spider,
														
 
															+    BiddingListSpider,
														
 
															+    BiddingDetailSpider,
														
 
															+    PlanToBuildListSpider,
														
 
															+    PlanToBuildDetailSpider
														
 
															+)
														
--- a/FworkSpider/feapder/core/spiders/air_spider.py
+++ b/FworkSpider/feapder/core/spiders/air_spider.py
@@ -126,11 +126,11 @@ class BatchSpider(BatchParser, Scheduler):
 
															         self._check_task_interval = check_task_interval
														
 
															         self._task_limit = task_limit  # mysql中一次取的任务数量
														
 
															         self._related_task_tables = [
														
 
															-            setting.TAB_REQUSETS.format(redis_key=redis_key)
														
 
															+            setting.TAB_REQUESTS.format(redis_key=redis_key)
														
 
															         ]  # 自己的task表也需要检查是否有任务
														
 
															         if related_redis_key:
														
 
															             self._related_task_tables.append(
														
 
															-                setting.TAB_REQUSETS.format(redis_key=related_redis_key)
														
 
															+                setting.TAB_REQUESTS.format(redis_key=related_redis_key)
														
 
															             )
														
 
															         self._related_batch_record = related_batch_record
														
@@ -216,7 +216,7 @@ class BatchSpider(BatchParser, Scheduler):
 
															                 is_first_check = False
														
 
															                 # 检查redis中是否有任务 任务小于_min_task_count 则从mysql中取
														
 
															-                tab_requests = setting.TAB_REQUSETS.format(redis_key=self._redis_key)
														
 
															+                tab_requests = setting.TAB_REQUESTS.format(redis_key=self._redis_key)
														
 
															                 todo_task_count = self._redisdb.zget_count(tab_requests)
														
 
															                 tasks = []
														
@@ -922,13 +922,6 @@ class BatchSpider(BatchParser, Scheduler):
 
															             # 爬虫开始
														
 
															             self.spider_begin()
														
 
															-            self.record_spider_state(
														
 
															-                spider_type=2,
														
 
															-                state=0,
														
 
															-                batch_date=batch_date,
														
 
															-                spider_start_time=tools.get_current_date(),
														
 
															-                batch_interval=self._batch_interval,
														
 
															-            )
														
 
															         else:
														
 
															             log.error("插入新批次失败")
														
@@ -1028,14 +1021,6 @@ class BatchSpider(BatchParser, Scheduler):
 
															                     ):  # redis全部的任务已经做完 并且mysql中的任务已经做完（检查各个线程all_thread_is_done，防止任务没做完，就更新任务状态，导致程序结束的情况）
														
 
															                         if not self._is_notify_end:
														
 
															                             self.spider_end()
														
 
															-                            self.record_spider_state(
														
 
															-                                spider_type=2,
														
 
															-                                state=1,
														
 
															-                                batch_date=self._batch_date_cache,
														
 
															-                                spider_end_time=tools.get_current_date(),
														
 
															-                                batch_interval=self._batch_interval,
														
 
															-                            )
														
 
															-
														
 
															                             self._is_notify_end = True
														
 
															                         if not self._keep_alive:
														
--- a/FworkSpider/feapder/core/spiders/spider.py
+++ b/FworkSpider/feapder/core/spiders/spider.py
@@ -16,6 +16,7 @@ import feapder.setting as setting
 
															 import feapder.utils.tools as tools
														
 
															 from feapder.core.base_parser import BaseParser
														
 
															 from feapder.core.scheduler import Scheduler
														
 
															+from feapder.db.mongodb import MongoDB
														
 
															 from feapder.db.redisdb import RedisDB
														
 
															 from feapder.network.item import Item
														
 
															 from feapder.network.request import Request
														
@@ -96,7 +97,7 @@ class Spider(
 
															         while True:
														
 
															             try:
														
 
															                 # 检查redis中是否有任务
														
 
															-                tab_requests = setting.TAB_REQUSETS.format(redis_key=self._redis_key)
														
 
															+                tab_requests = setting.TAB_REQUESTS.format(redis_key=self._redis_key)
														
 
															                 todo_task_count = redisdb.zget_count(tab_requests)
														
 
															                 if todo_task_count < self._min_task_count:  # 添加任务
														
@@ -160,14 +161,6 @@ class Spider(
 
															         if self._is_distributed_task:  # 有任务时才提示启动爬虫
														
 
															             # begin
														
 
															             self.spider_begin()
														
 
															-            self.record_spider_state(
														
 
															-                spider_type=1,
														
 
															-                state=0,
														
 
															-                batch_date=tools.get_current_date(),
														
 
															-                spider_start_time=tools.get_current_date(),
														
 
															-                batch_interval=self._batch_interval,
														
 
															-            )
														
 
															-
														
 
															             # 重置已经提示无任务状态为False
														
 
															             self._is_show_not_task = False
														
@@ -194,13 +187,6 @@ class Spider(
 
															                 if self.all_thread_is_done():
														
 
															                     if not self._is_notify_end:
														
 
															                         self.spider_end()  # 跑完一轮
														
 
															-                        self.record_spider_state(
														
 
															-                            spider_type=1,
														
 
															-                            state=1,
														
 
															-                            spider_end_time=tools.get_current_date(),
														
 
															-                            batch_interval=self._batch_interval,
														
 
															-                        )
														
 
															-
														
 
															                         self._is_notify_end = True
														
 
															                     if not self._keep_alive:
														
@@ -435,3 +421,150 @@ class DebugSpider(Spider):
 
															             tools.delay_time(1)  # 1秒钟检查一次爬虫状态
														
 
															         self.delete_tables([self._redis_key + "*"])
														
 
															+
														
 
															+
														
 
															+class BusinessBaseListSpider(Spider):
														
 
															+    """列表页爬虫事务基类"""
														
 
															+
														
 
															+    __business_type__ = "List"
														
 
															+
														
 
															+    def _increment_page_number(self, request):
														
 
															+        """无限翻页 - 页码自增"""
														
 
															+        if self.platform_next_page:
														
 
															+            if getattr(request, 'real_page', None) is None:
														
 
															+                request.real_page = 0  # real_page=连续翻页页码（真实入库数量=0）
														
 
															+
														
 
															+            request.real_page += 1
														
 
															+
														
 
															+            if request.rel_count > 0:
														
 
															+                request.real_page = 0  # 当真实入库数量大于0，重置翻页记录
														
 
															+                request.rel_count = 0  # 重置实际入库数量
														
 
															+
														
 
															+            if request.real_page <= 5 and request.page < self.platform_max_page:
														
 
															+                request.page += 1
														
 
															+                # 设置无限翻页回调方法，进行列表页解析处理
														
 
															+                callback_parser = (
														
 
															+                    request.callback
														
 
															+                    if callable(request.callback)
														
 
															+                    else self.parse
														
 
															+                )
														
 
															+                request.callback = callback_parser
														
 
															+                yield request
														
 
															+        else:
														
 
															+            if request.page < int(request.item["crawl_page"]):
														
 
															+                request.page += 1  # 采集页码自增
														
 
															+                request.rel_count = 0  # 重置实际入库数量
														
 
															+                # 设置无限翻页回调方法，进行列表页解析处理
														
 
															+                callback_parser = (
														
 
															+                    request.callback
														
 
															+                    if callable(request.callback)
														
 
															+                    else self.parse
														
 
															+                )
														
 
															+                request.callback = callback_parser
														
 
															+                yield request
														
 
															+
														
 
															+    def infinite_pages(self, request, response):
														
 
															+        """无限翻页"""
														
 
															+        request_generator = self._increment_page_number(request)
														
 
															+        try:
														
 
															+            request = next(request_generator)
														
 
															+            return request
														
 
															+        except StopIteration:
														
 
															+            pass
														
 
															+
														
 
															+
														
 
															+class BusinessBaseDetailSpider(Spider):
														
 
															+    """详情页爬虫事务基类"""
														
 
															+
														
 
															+    __business_type__ = "Detail"
														
 
															+
														
 
															+    __custom_setting__ = dict(
														
 
															+        ITEM_FILTER_ENABLE=False
														
 
															+    )
														
 
															+
														
 
															+    err_coll_name = "listdata_err"
														
 
															+    _to_db = None
														
 
															+
														
 
															+    def get_tasks(self, query, limit=10, is_delete=True, **kwargs):
														
 
															+        """
														
 
															+        领取采集任务
														
 
															+
														
 
															+        :param dict query: 查询条件
														
 
															+        :param limit: 结果数量
														
 
															+        :param is_delete: 取走的任务是否删除
														
 
															+        :param kwargs
														
 
															+            更多参数 https://docs.mongodb.com/manual/reference/command/find/#command-fields
														
 
															+
														
 
															+        :return: dict
														
 
															+        """
														
 
															+        if "sort" not in kwargs:
														
 
															+            kwargs.setdefault("sort", {"_id": -1})
														
 
															+
														
 
															+        cursor = self.to_db.find(coll_name=self.db_name, condition=query, limit=limit, **kwargs)
														
 
															+        for task in cursor:
														
 
															+            yield task
														
 
															+
														
 
															+            if is_delete:
														
 
															+                self.to_db.delete(coll_name=self.db_name, condition=task)
														
 
															+
														
 
															+    @property
														
 
															+    def to_db(self):
														
 
															+        if not self._to_db:
														
 
															+            self._to_db = MongoDB()
														
 
															+        return self._to_db
														
 
															+
														
 
															+
														
 
															+class BiddingListSpider(BusinessBaseListSpider):
														
 
															+    """标讯列表页爬虫事务类"""
														
 
															+
														
 
															+    __business_type__ = "BiddingList"
														
 
															+
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+class BiddingDetailSpider(BusinessBaseDetailSpider):
														
 
															+    """标讯详情页爬虫事务类"""
														
 
															+
														
 
															+    __business_type__ = "BiddingDetail"
														
 
															+    db_name = "mgp_list"
														
 
															+
														
 
															+    def failed_request(self, request, response):
														
 
															+        """请求、解析错误次数超过上限后，将原信息重新保存至数据库，并修改failed字段"""
														
 
															+        _data = request.base_info if isinstance(request.base_info, dict) else request.base_info.to_dict
														
 
															+        item = Item(origin_data=_data)
														
 
															+        item.table_name = self.err_coll_name
														
 
															+        item.status_code = getattr(response, "status_code", -1)
														
 
															+        item.err_reason = getattr(request, "error_msg", "")
														
 
															+        item.err_requests = int(getattr(item, "err_requests", 0)) + 1
														
 
															+        item.create_at = tools.ensure_int64(tools.get_current_timestamp())
														
 
															+        item.origin = self.db_name
														
 
															+        item.spidercode = _data["spidercode"]
														
 
															+        yield item
														
 
															+
														
 
															+
														
 
															+class PlanToBuildListSpider(BusinessBaseListSpider):
														
 
															+    """拟建列表页爬虫事务类"""
														
 
															+
														
 
															+    __business_type__ = "PlanToBuildList"
														
 
															+
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+class PlanToBuildDetailSpider(BusinessBaseDetailSpider):
														
 
															+    """拟建详情页爬虫事务类"""
														
 
															+
														
 
															+    __business_type__ = "PlanToBuildDetail"
														
 
															+    db_name = "njpc_list"
														
 
															+
														
 
															+    def failed_request(self, request, response):
														
 
															+        """请求、解析错误次数超过上限后，将原信息重新保存至数据库，并修改failed字段"""
														
 
															+        _data = request.item if isinstance(request.item, dict) else request.item.to_dict
														
 
															+        item = Item(origin_data=_data)
														
 
															+        item.table_name = self.err_coll_name
														
 
															+        item.status_code = getattr(response, "status_code", -1)
														
 
															+        item.err_requests = int(getattr(item, "err_requests", 0)) + 1
														
 
															+        item.err_reason = getattr(request, "error_msg", "")
														
 
															+        item.create_at = tools.ensure_int64(tools.get_current_timestamp())
														
 
															+        item.origin = self.db_name
														
 
															+        item.spidercode = _data["spidercode"]
														
 
															+        yield item
														
--- a/FworkSpider/feapder/db/__init__.py
+++ b/FworkSpider/feapder/db/__init__.py
@@ -159,7 +159,6 @@ class MongoDB:
 
															         try:
														
 
															             collection.insert_one(data)
														
 
															         except DuplicateKeyError as e:
														
 
															-            data.pop("_id", "")
														
 
															             # 存在则更新
														
 
															             if update_columns:
														
 
															                 if not isinstance(update_columns, (tuple, list)):
														
@@ -236,7 +235,6 @@ class MongoDB:
 
															                     # 数据重复
														
 
															                     # 获取重复的数据
														
 
															                     data = error.get("op")
														
 
															-                    data.pop("_id", "")
														
 
															                     def get_condition():
														
 
															                         # 获取更新条件
														
@@ -265,9 +263,7 @@ class MongoDB:
 
															                             }
														
 
															                         else:
														
 
															                             # 使用数据本身的值更新
														
 
															-                            doc = {}
														
 
															-                            for key in update_columns:
														
 
															-                                doc = {key: data.get(key)}
														
 
															+                            doc = {key: data.get(key) for key in update_columns}
														
 
															                         collection.update_one(get_condition(), {"$set": doc})
														
 
															                         add_count -= 1
														
--- a/FworkSpider/feapder/db/mysqldb.py
+++ b/FworkSpider/feapder/db/mysqldb.py
@@ -2,48 +2,89 @@
 
															 """
														
 
															 Created on 2018-12-13 21:08
														
 
															 ---------
														
 
															-@summary:  sha256 redis集群去重，正式环境使用的去重方式
														
 
															+@summary:
														
 
															 ---------
														
 
															 @author: Boris
														
 
															 @email: boris_liu@foxmail.com
														
 
															 """
														
 
															 import copy
														
 
															-from typing import Any, List, Union, Tuple, Callable
														
 
															-import rediscluster
														
 
															-from Crypto.Hash import SHA256
														
 
															-from feapder import setting
														
 
															+from typing import Any, List, Union, Tuple, Callable, Optional
														
 
															+
														
 
															+from feapder.utils.tools import get_md5
														
 
															+from .bloomfilter import BloomFilter, ScalableBloomFilter
														
 
															+from .expirefilter import ExpireFilter
														
 
															+from .litefilter import LiteFilter
														
 
															+from .swordfishfilter import SwordFishFilter
														
 
															+
														
 
															 class Dedup:
														
 
															     BloomFilter = 1
														
 
															     MemoryFilter = 2
														
 
															     ExpireFilter = 3
														
 
															-    def __init__(self,ilter_type: int = BloomFilter):
														
 
															-        self._to_sha256 = True
														
 
															-        self._to_redis = None
														
 
															+    LiteFilter = 4
														
 
															+    SwordFishFilter = 5
														
 
															+
														
 
															+    def __init__(self, filter_type: int = BloomFilter, to_md5: bool = True, **kwargs):
														
 
															+        if filter_type == Dedup.ExpireFilter:
														
 
															+            try:
														
 
															+                expire_time = kwargs["expire_time"]
														
 
															+            except:
														
 
															+                raise ValueError("需传参数 expire_time")
														
 
															+
														
 
															+            name = kwargs.get("absolute_name") or "dedup:expire_set:%s" % kwargs.get(
														
 
															+                "name", expire_time
														
 
															+            )
														
 
															+            expire_time_record_key = "dedup:expire_set:expire_time"
														
 
															+
														
 
															+            self.dedup = ExpireFilter(
														
 
															+                name=name,
														
 
															+                expire_time=expire_time,
														
 
															+                expire_time_record_key=expire_time_record_key,
														
 
															+                redis_url=kwargs.get("redis_url"),
														
 
															+            )
														
 
															+        elif filter_type == Dedup.SwordFishFilter:
														
 
															+            self.dedup = SwordFishFilter(
														
 
															+                redis_url=kwargs.get("redis_url"),
														
 
															+                expire_time=kwargs.get("expire_time")
														
 
															+            )
														
 
															+        else:
														
 
															+            initial_capacity = kwargs.get("initial_capacity", 100000000)
														
 
															+            error_rate = kwargs.get("error_rate", 0.00001)
														
 
															+            name = kwargs.get("absolute_name") or "dedup:bloomfilter:" + kwargs.get("name", "bloomfilter")
														
 
															+            if filter_type == Dedup.BloomFilter:
														
 
															+                self.dedup = ScalableBloomFilter(
														
 
															+                    name=name,
														
 
															+                    initial_capacity=initial_capacity,
														
 
															+                    error_rate=error_rate,
														
 
															+                    bitarray_type=ScalableBloomFilter.BASE_REDIS,
														
 
															+                    redis_url=kwargs.get("redis_url"),
														
 
															+                )
														
 
															+            elif filter_type == Dedup.MemoryFilter:
														
 
															+                self.dedup = ScalableBloomFilter(
														
 
															+                    name=name,
														
 
															+                    initial_capacity=initial_capacity,
														
 
															+                    error_rate=error_rate,
														
 
															+                    bitarray_type=ScalableBloomFilter.BASE_MEMORY,
														
 
															+                )
														
 
															+            elif filter_type == Dedup.LiteFilter:
														
 
															+                self.dedup = LiteFilter()
														
 
															+            else:
														
 
															+                raise ValueError(
														
 
															+                    "filter_type 类型错误，仅支持 Dedup.BloomFilter、Dedup.MemoryFilter、Dedup.ExpireFilter"
														
 
															+                )
														
 
															-    @property
														
 
															-    def redis_cluster(self): # 连接redis集群
														
 
															-        if not self._to_redis:
														
 
															-            startup_nodes = [{"host": i.get("host"), "port": i.get("port")} for i in setting.REDISCLUSTER]
														
 
															-            self._to_redis =  rediscluster.RedisCluster(startup_nodes=startup_nodes, decode_responses=True)
														
 
															-        return self._to_redis
														
 
															+        self._to_md5 = to_md5
														
 
															     def __repr__(self):
														
 
															-        return 'sha256'
														
 
															-    def sha256(self,info):
														
 
															-        if info is None:
														
 
															-            return ''
														
 
															-        res = SHA256.new(info.encode('utf-8'))
														
 
															-        data = res.hexdigest()
														
 
															-        return data
														
 
															-
														
 
															-    def _deal_datas(self, datas): # 对datas进行加密处理
														
 
															-        if self._to_sha256:
														
 
															+        return str(self.dedup)
														
 
															+
														
 
															+    def _deal_datas(self, datas):
														
 
															+        if self._to_md5:
														
 
															             if isinstance(datas, list):
														
 
															-                keys = [self.sha256(data) for data in datas]
														
 
															+                keys = [get_md5(data) for data in datas]
														
 
															             else:
														
 
															-                keys = self.sha256(datas)
														
 
															+                keys = get_md5(datas)
														
 
															         else:
														
 
															             keys = copy.deepcopy(datas)
														
@@ -58,35 +99,11 @@ class Dedup:
 
															         @param skip_check: 是否直接添加，不检查是否存在 适用于bloomfilter，加快add速度
														
 
															         @return: list / 单个值 (如果数据已存在 返回 0 否则返回 1, 可以理解为是否添加成功)
														
 
															         """
														
 
															+
														
 
															         keys = self._deal_datas(datas)
														
 
															-        is_added = self.insert_key(keys, skip_check)
														
 
															+        is_added = self.dedup.add(keys, skip_check)
														
 
															         return is_added
														
 
															-    def insert_key(self,keys,skip_check):
														
 
															-        if isinstance(keys, list):
														
 
															-            for key in keys:
														
 
															-                if not self.redis_cluster.exists("pylist_"+key):
														
 
															-                    self.redis_cluster.set("pylist_"+key, 1,ex=86400*365*2)
														
 
															-        else:
														
 
															-            if not self.redis_cluster.exists("pylist_"+keys):
														
 
															-                self.redis_cluster.set("pylist_"+keys,1,ex=86400*365*2)
														
 
															-
														
 
															-    def exists(self,keys):
														
 
															-        exists = []
														
 
															-        if isinstance(keys, list):
														
 
															-            for key in keys:
														
 
															-                exists.append(self.exit_key(key))
														
 
															-        else:
														
 
															-            exists.append(self.exit_key(keys))
														
 
															-        return exists
														
 
															-    def exit_key(self,key):
														
 
															-        if self.redis_cluster.exists(key):
														
 
															-            return True
														
 
															-        if self.redis_cluster.exists("pylist_"+key):
														
 
															-            return True
														
 
															-        return False
														
 
															-
														
 
															-
														
 
															     def get(self, datas: Union[List[Any], Any]) -> Union[List[Any], Any]:
														
 
															         """
														
@@ -95,44 +112,58 @@ class Dedup:
 
															         @return: list / 单个值 （存在返回1 不存在返回0)
														
 
															         """
														
 
															         keys = self._deal_datas(datas)
														
 
															-        is_exists = self.exists(keys)
														
 
															+        is_exists = self.dedup.get(keys)
														
 
															         return is_exists
														
 
															-
														
 
															     def filter_exist_data(
														
 
															         self,
														
 
															         datas: List[Any],
														
 
															         *,
														
 
															+        datas_fingerprints: Optional[List] = None,
														
 
															         callback: Callable[[Any], None] = None
														
 
															     ) -> Union[Tuple[List[Any], List[Any]], List[Any]]:
														
 
															         """
														
 
															         过滤掉已存在的数据
														
 
															+        *** 直接修改原来的数据 使用完此方法后 datas, datas_fingerprints 里面的值为去重后的数据
														
 
															+        @param datas_fingerprints: 数据的唯一指纹 列表
														
 
															         @param datas: 数据 列表
														
 
															         @param callback: 数据已存在时的回调 callback(data)
														
 
															         @return: None
														
 
															-        [0,1,1]
														
 
															-        [b,c,d]
														
 
															-        []
														
 
															         """
														
 
															-        is_exists = self.get(datas)
														
 
															+
														
 
															+        is_exists = self.get(datas_fingerprints or datas)
														
 
															+
														
 
															         dedup_datas = []
														
 
															-        while is_exists:
														
 
															-            data = datas.pop(0)
														
 
															-            is_exist = is_exists.pop(0)
														
 
															-            if not is_exist:
														
 
															-                dedup_datas.append(data)
														
 
															-            else:
														
 
															-                if callback:
														
 
															-                    callback(data)
														
 
															-
														
 
															-        datas.extend(dedup_datas)
														
 
															-        return datas
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    dedup = Dedup(Dedup.BloomFilter)
														
 
															-    href = 'http://www.ccgp-tianjin.gov.cn/viewer.do?id=339715380&ver=2222'
														
 
															-    ss = dedup.filter_exist_data([href])
														
 
															-    # res = dedup.add([href,'llk'])
														
 
															-    print(ss)
														
 
															+        if datas_fingerprints:
														
 
															+            dedup_datas_fingerprints = []
														
 
															+            while is_exists:
														
 
															+                data = datas.pop(0)
														
 
															+                is_exist = is_exists.pop(0)
														
 
															+                data_fingerprint = datas_fingerprints.pop(0)
														
 
															+
														
 
															+                if not is_exist:
														
 
															+                    dedup_datas.append(data)
														
 
															+                    dedup_datas_fingerprints.append(data_fingerprint)
														
 
															+                else:
														
 
															+                    if callback:
														
 
															+                        callback(data)
														
 
															+
														
 
															+            datas_fingerprints.extend(dedup_datas_fingerprints)
														
 
															+            datas.extend(dedup_datas)
														
 
															+            return datas, datas_fingerprints
														
 
															+
														
 
															+        else:
														
 
															+            while is_exists:
														
 
															+                data = datas.pop(0)
														
 
															+                is_exist = is_exists.pop(0)
														
 
															+
														
 
															+                if not is_exist:
														
 
															+                    dedup_datas.append(data)
														
 
															+                else:
														
 
															+                    if callback:
														
 
															+                        callback(data)
														
 
															+
														
 
															+            datas.extend(dedup_datas)
														
 
															+            return datas
														
--- a/FworkSpider/feapder/dedup/bitarray.py
+++ b/FworkSpider/feapder/dedup/bitarray.py
@@ -14,7 +14,7 @@ import threading
 
															 import time
														
 
															 from struct import unpack, pack
														
 
															-from feapder.db.redisdb import RedisDB
														
 
															+from feapder.dedup.basefilter import BaseFilter
														
 
															 from feapder.utils.redis_lock import RedisLock
														
 
															 from . import bitarray
														
@@ -146,24 +146,18 @@ class BloomFilter(object):
 
															         比较耗时 半小时检查一次
														
 
															         @return:
														
 
															         """
														
 
															-        # if self._is_at_capacity:
														
 
															-        #     return self._is_at_capacity
														
 
															-        #
														
 
															-        # if not self._check_capacity_time or time.time() - self._check_capacity_time > 1800:
														
 
															-        #     bit_count = self.bitarray.count()
														
 
															-        #     if bit_count and bit_count / self.num_bits > 0.5:
														
 
															-        #         self._is_at_capacity = True
														
 
															-        #
														
 
															-        #     self._check_capacity_time = time.time()
														
 
															-        #
														
 
															-        # return self._is_at_capacity
														
 
															-
														
 
															         if self._is_at_capacity:
														
 
															             return self._is_at_capacity
														
 
															-        bit_count = self.bitarray.count()
														
 
															-        if bit_count and bit_count / self.num_bits > 0.5:
														
 
															-            self._is_at_capacity = True
														
 
															+        if (
														
 
															+            not self._check_capacity_time
														
 
															+            or time.time() - self._check_capacity_time > 1800
														
 
															+        ):
														
 
															+            bit_count = self.bitarray.count()
														
 
															+            if bit_count and bit_count / self.num_bits > 0.5:
														
 
															+                self._is_at_capacity = True
														
 
															+
														
 
															+            self._check_capacity_time = time.time()
														
 
															         return self._is_at_capacity
														
@@ -174,8 +168,8 @@ class BloomFilter(object):
 
															         @param keys: list or one key
														
 
															         @return:
														
 
															         """
														
 
															-        if self.is_at_capacity:
														
 
															-            raise IndexError("BloomFilter is at capacity")
														
 
															+        # if self.is_at_capacity:
														
 
															+        #     raise IndexError("BloomFilter is at capacity")
														
 
															         is_list = isinstance(keys, list)
														
@@ -197,7 +191,7 @@ class BloomFilter(object):
 
															         return is_added if is_list else is_added[0]
														
 
															-class ScalableBloomFilter(object):
														
 
															+class ScalableBloomFilter(BaseFilter):
														
 
															     """
														
 
															     自动扩展空间的bloomfilter, 当一个filter满一半的时候，创建下一个
														
 
															     """
														
@@ -273,7 +267,7 @@ class ScalableBloomFilter(object):
 
															                     if self.name
														
 
															                     else "ScalableBloomFilter"
														
 
															                 )
														
 
															-                with RedisLock(key=key) as lock:
														
 
															+                with RedisLock(key=key, redis_url=self.redis_url) as lock:
														
 
															                     if lock.locked:
														
 
															                         while True:
														
 
															                             if self.filters[-1].is_at_capacity:
														
--- a/FworkSpider/feapder/dedup/expirefilter.py
+++ b/FworkSpider/feapder/dedup/expirefilter.py
@@ -11,9 +11,10 @@ Created on 2018/12/13 9:44 PM
 
															 import time
														
 
															 from feapder.db.redisdb import RedisDB
														
 
															+from feapder.dedup.basefilter import BaseFilter
														
 
															-class ExpireFilter:
														
 
															+class ExpireFilter(BaseFilter):
														
 
															     redis_db = None
														
 
															     def __init__(
														
@@ -55,7 +56,17 @@ class ExpireFilter:
 
															         return is_added
														
 
															     def get(self, keys):
														
 
															-        return self.redis_db.zexists(self.name, keys)
														
 
															+        is_exist = self.redis_db.zexists(self.name, keys)
														
 
															+        if isinstance(keys, list):
														
 
															+            # 判断数据本身是否重复
														
 
															+            temp_set = set()
														
 
															+            for i, key in enumerate(keys):
														
 
															+                if key in temp_set:
														
 
															+                    is_exist[i] = 1
														
 
															+                else:
														
 
															+                    temp_set.add(key)
														
 
															+
														
 
															+        return is_exist
														
 
															     def del_expire_key(self):
														
 
															         self.redis_db.zremrangebyscore(
														
--- a/FworkSpider/feapder/dedup/old__init__.py
+++ b/FworkSpider/feapder/dedup/old__init__.py
@@ -1,178 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""
														
 
															-Created on 2018-12-13 21:08
														
 
															----------
														
 
															-@summary: 布隆去重，测试框架使用的去重方式
														
 
															----------
														
 
															-@author: Boris
														
 
															-@email: boris_liu@foxmail.com
														
 
															-"""
														
 
															-
														
 
															-import copy
														
 
															-from typing import Any, List, Union, Optional, Tuple, Callable
														
 
															-
														
 
															-from feapder.utils.tools import get_md5
														
 
															-from .bloomfilter import BloomFilter, ScalableBloomFilter
														
 
															-from .expirefilter import ExpireFilter
														
 
															-
														
 
															-
														
 
															-class Dedup:
														
 
															-    BloomFilter = 1
														
 
															-    MemoryFilter = 2
														
 
															-    ExpireFilter = 3
														
 
															-
														
 
															-    def __init__(self, filter_type: int = BloomFilter, to_md5: bool = True, **kwargs):
														
 
															-        """
														
 
															-        去重过滤器 集成BloomFilter、MemoryFilter、ExpireFilter
														
 
															-        Args:
														
 
															-            filter_type: 过滤器类型 BloomFilter
														
 
															-            name: 过滤器名称 该名称会默认以dedup作为前缀 dedup:expire_set:[name]/dedup:bloomfilter:[name]。 默认ExpireFilter name=过期时间; BloomFilter name=dedup:bloomfilter:bloomfilter
														
 
															-            absolute_name: 过滤器绝对名称 不会加dedup前缀，当此值不为空时name参数无效
														
 
															-            expire_time: ExpireFilter的过期时间 单位为秒，其他两种过滤器不用指定
														
 
															-            error_rate: BloomFilter/MemoryFilter的误判率 默认为0.00001
														
 
															-            to_md5: 去重前是否将数据转为MD5，默认是
														
 
															-            redis_url: redis://[[username]:[password]]@localhost:6379/0
														
 
															-                       BloomFilter 与 ExpireFilter 使用
														
 
															-                       默认会读取setting中的redis配置，若无setting，则需要专递redis_url
														
 
															-            initial_capacity: 单个布隆过滤器去重容量 默认100000000，当布隆过滤器容量满时会扩展下一个布隆过滤器
														
 
															-            error_rate：布隆过滤器的误判率 默认0.00001
														
 
															-            **kwargs:
														
 
															-        """
														
 
															-
														
 
															-        if filter_type == Dedup.ExpireFilter:
														
 
															-            try:
														
 
															-                expire_time = kwargs["expire_time"]
														
 
															-            except:
														
 
															-                raise ValueError("需传参数 expire_time")
														
 
															-
														
 
															-            name = kwargs.get("absolute_name") or "dedup:expire_set:%s" % kwargs.get(
														
 
															-                "name", expire_time
														
 
															-            )
														
 
															-            expire_time_record_key = "dedup:expire_set:expire_time"
														
 
															-
														
 
															-            self.dedup = ExpireFilter(
														
 
															-                name=name,
														
 
															-                expire_time=expire_time,
														
 
															-                expire_time_record_key=expire_time_record_key,
														
 
															-                redis_url=kwargs.get("redis_url"),
														
 
															-            )
														
 
															-
														
 
															-        else:
														
 
															-            initial_capacity = kwargs.get("initial_capacity", 100000000)
														
 
															-            error_rate = kwargs.get("error_rate", 0.00001)
														
 
															-            name = kwargs.get("absolute_name") or "dedup:bloomfilter:" + kwargs.get(
														
 
															-                "name", "bloomfilter"
														
 
															-            )
														
 
															-            if filter_type == Dedup.BloomFilter:
														
 
															-                self.dedup = ScalableBloomFilter(
														
 
															-                    name=name,
														
 
															-                    initial_capacity=initial_capacity,
														
 
															-                    error_rate=error_rate,
														
 
															-                    bitarray_type=ScalableBloomFilter.BASE_REDIS,
														
 
															-                    redis_url=kwargs.get("redis_url"),
														
 
															-                )
														
 
															-            elif filter_type == Dedup.MemoryFilter:
														
 
															-                self.dedup = ScalableBloomFilter(
														
 
															-                    name=name,
														
 
															-                    initial_capacity=initial_capacity,
														
 
															-                    error_rate=error_rate,
														
 
															-                    bitarray_type=ScalableBloomFilter.BASE_MEMORY,
														
 
															-                )
														
 
															-            else:
														
 
															-                raise ValueError(
														
 
															-                    "filter_type 类型错误，仅支持 Dedup.BloomFilter、Dedup.MemoryFilter、Dedup.ExpireFilter"
														
 
															-                )
														
 
															-
														
 
															-        self._to_md5 = to_md5
														
 
															-
														
 
															-    def __repr__(self):
														
 
															-        return str(self.dedup)
														
 
															-
														
 
															-    def _deal_datas(self, datas):
														
 
															-        if self._to_md5:
														
 
															-            if isinstance(datas, list):
														
 
															-                keys = [get_md5(data) for data in datas]
														
 
															-            else:
														
 
															-                keys = get_md5(datas)
														
 
															-        else:
														
 
															-            keys = copy.deepcopy(datas)
														
 
															-
														
 
															-        return keys
														
 
															-
														
 
															-    def add(
														
 
															-        self, datas: Union[List[Any], Any], skip_check: bool = False
														
 
															-    ) -> Union[List[Any], Any]:
														
 
															-        """
														
 
															-        添加数据
														
 
															-        @param datas: list / 单个值
														
 
															-        @param skip_check: 是否直接添加，不检查是否存在 适用于bloomfilter，加快add速度
														
 
															-        @return: list / 单个值 (如果数据已存在 返回 0 否则返回 1, 可以理解为是否添加成功)
														
 
															-        """
														
 
															-
														
 
															-        keys = self._deal_datas(datas)
														
 
															-        is_added = self.dedup.add(keys, skip_check)
														
 
															-
														
 
															-        return is_added
														
 
															-
														
 
															-    def get(self, datas: Union[List[Any], Any]) -> Union[List[Any], Any]:
														
 
															-        """
														
 
															-        检查数据是否存在
														
 
															-        @param datas: list / 单个值
														
 
															-        @return: list / 单个值 （存在返回1 不存在返回0)
														
 
															-        """
														
 
															-        keys = self._deal_datas(datas)
														
 
															-        is_exists = self.dedup.get(keys)
														
 
															-
														
 
															-        return is_exists
														
 
															-
														
 
															-    def filter_exist_data(
														
 
															-        self,
														
 
															-        datas: List[Any],
														
 
															-        *,
														
 
															-        datas_fingerprints: Optional[List] = None,
														
 
															-        callback: Callable[[Any], None] = None
														
 
															-    ) -> Union[Tuple[List[Any], List[Any]], List[Any]]:
														
 
															-        """
														
 
															-        过滤掉已存在的数据
														
 
															-        *** 直接修改原来的数据 使用完此方法后 datas, datas_fingerprints 里面的值为去重后的数据
														
 
															-        @param datas_fingerprints: 数据的唯一指纹 列表
														
 
															-        @param datas: 数据 列表
														
 
															-        @param callback: 数据已存在时的回调 callback(data)
														
 
															-        @return: None
														
 
															-        """
														
 
															-
														
 
															-        is_exists = self.get(datas_fingerprints or datas)
														
 
															-
														
 
															-        dedup_datas = []
														
 
															-
														
 
															-        if datas_fingerprints:
														
 
															-            dedup_datas_fingerprints = []
														
 
															-            while is_exists:
														
 
															-                data = datas.pop(0)
														
 
															-                is_exist = is_exists.pop(0)
														
 
															-                data_fingerprint = datas_fingerprints.pop(0)
														
 
															-
														
 
															-                if not is_exist:
														
 
															-                    dedup_datas.append(data)
														
 
															-                    dedup_datas_fingerprints.append(data_fingerprint)
														
 
															-                else:
														
 
															-                    if callback:
														
 
															-                        callback(data)
														
 
															-
														
 
															-            datas_fingerprints.extend(dedup_datas_fingerprints)
														
 
															-            datas.extend(dedup_datas)
														
 
															-            return datas, datas_fingerprints
														
 
															-
														
 
															-        else:
														
 
															-            while is_exists:
														
 
															-                data = datas.pop(0)
														
 
															-                is_exist = is_exists.pop(0)
														
 
															-
														
 
															-                if not is_exist:
														
 
															-                    dedup_datas.append(data)
														
 
															-                else:
														
 
															-                    if callback:
														
 
															-                        callback(data)
														
 
															-
														
 
															-            datas.extend(dedup_datas)
														
 
															-            return datas
														
--- a/FworkSpider/feapder/network/__init__.py
+++ b/FworkSpider/feapder/network/__init__.py
@@ -16,15 +16,18 @@ import warnings
 
															 from collections import Iterable
														
 
															 from enum import Enum, unique
														
 
															+import requests
														
 
															+from func_timeout import func_set_timeout
														
 
															+
														
 
															 import feapder.utils.tools as tools
														
 
															 from feapder import setting
														
 
															-from feapder.db.mysqldb import MysqlDB
														
 
															+from feapder.db.mongodb import MongoDB
														
 
															 from feapder.db.redisdb import RedisDB
														
 
															+from feapder.network import user_agent
														
 
															 from feapder.utils import metrics
														
 
															 from feapder.utils.log import log
														
 
															 from feapder.utils.redis_lock import RedisLock
														
 
															 from feapder.utils.tools import send_msg
														
 
															-from feapder.utils.webdriver import WebDriver
														
 
															 class CookiePoolInterface(metaclass=abc.ABCMeta):
														
@@ -101,21 +104,14 @@ class PageCookiePool(CookiePoolInterface):
 
															         可能会重写
														
 
															         @return:
														
 
															         """
														
 
															-        with WebDriver(**self._kwargs) as driver:
														
 
															-            driver.get(self._page_url)
														
 
															-            cookies = driver.get_cookies()
														
 
															-            cookies_json = {}
														
 
															-            for cookie in cookies:
														
 
															-                cookies_json[cookie["name"]] = cookie["value"]
														
 
															-
														
 
															-            for key in self._must_contained_keys:
														
 
															-                if key not in cookies_json:
														
 
															-                    break
														
 
															-            else:
														
 
															-                return cookies_json
														
 
															-
														
 
															-            log.error("获取cookie失败 cookies = {}".format(cookies_json))
														
 
															-            return None
														
 
															+        url = self._page_url
														
 
															+        header = {
														
 
															+            "Upgrade-Insecure-Requests": "1",
														
 
															+            "User-Agent": user_agent.get()
														
 
															+        }
														
 
															+        res = requests.get(url, headers=header)
														
 
															+        cookies = requests.utils.dict_from_cookiejar(res.cookies)
														
 
															+        return cookies
														
 
															     def add_cookies(self, cookies):
														
 
															         log.info("添加cookie {}".format(cookies))
														
@@ -126,7 +122,6 @@ class PageCookiePool(CookiePoolInterface):
 
															             try:
														
 
															                 now_cookie_count = self._redisdb.lget_count(self._tab_cookie_pool)
														
 
															                 need_cookie_count = self._min_cookies - now_cookie_count
														
 
															-
														
 
															                 if need_cookie_count > 0:
														
 
															                     log.info(
														
 
															                         "当前cookie数为 {} 小于 {}, 生产cookie".format(
														
@@ -141,7 +136,6 @@ class PageCookiePool(CookiePoolInterface):
 
															                         log.exception(e)
														
 
															                 else:
														
 
															                     log.info("当前cookie数为 {} 数量足够 暂不生产".format(now_cookie_count))
														
 
															-
														
 
															                     # 判断cookie池近一分钟数量是否有变化，无变化则认为爬虫不再用了，退出
														
 
															                     last_count_info = self._redisdb.strget(
														
 
															                         self._tab_cookie_pool_last_count
														
@@ -176,6 +170,7 @@ class PageCookiePool(CookiePoolInterface):
 
															                 log.exception(e)
														
 
															                 tools.delay_time(1)
														
 
															+    @func_set_timeout(120)
														
 
															     def get_cookie(self, wait_when_null=True):
														
 
															         while True:
														
 
															             try:
														
@@ -184,9 +179,10 @@ class PageCookiePool(CookiePoolInterface):
 
															                     log.info("暂无cookie 生产中...")
														
 
															                     self._keep_alive = False
														
 
															                     self._min_cookies = 1
														
 
															-                    with RedisLock(
														
 
															-                        key=self._tab_cookie_pool, lock_timeout=3600, wait_timeout=5
														
 
															-                    ) as _lock:
														
 
															+                    _lock = RedisLock(key=self._tab_cookie_pool,
														
 
															+                                      lock_timeout=3600,
														
 
															+                                      wait_timeout=5)
														
 
															+                    with _lock:
														
 
															                         if _lock.locked:
														
 
															                             self.run()
														
 
															                     continue
														
@@ -240,25 +236,10 @@ class LoginCookiePool(CookiePoolInterface):
 
															         self._password_key = password_key
														
 
															         self._redisdb = RedisDB()
														
 
															-        self._mysqldb = ()
														
 
															-
														
 
															-        self.create_userbase()
														
 
															-
														
 
															-    def create_userbase(self):
														
 
															-        sql = f"""
														
 
															-            CREATE TABLE IF NOT EXISTS `{self._table_userbase}` (
														
 
															-              `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
														
 
															-              `{self._username_key}` varchar(50) DEFAULT NULL COMMENT '用户名',
														
 
															-              `{self._password_key}` varchar(255) DEFAULT NULL COMMENT '密码',
														
 
															-              `{self._login_state_key}` int(11) DEFAULT '0' COMMENT '登录状态（0未登录 1已登录）',
														
 
															-              `{self._lock_state_key}` int(11) DEFAULT '0' COMMENT '账号是否被封（0 未封 1 被封）',
														
 
															-              PRIMARY KEY (`id`),
														
 
															-              UNIQUE KEY `username` (`username`) USING BTREE
														
 
															-            ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
														
 
															-        """
														
 
															-        self._mysqldb.execute(sql)
														
 
															+        self._mongo = MongoDB(db='user_login')
														
 
															     def create_cookie(self, username, password):
														
 
															+
														
 
															         """
														
 
															         创建cookie
														
 
															         @param username: 用户名
														
@@ -273,15 +254,7 @@ class LoginCookiePool(CookiePoolInterface):
 
															         @return: yield username, password
														
 
															         """
														
 
															-        sql = "select {username_key}, {password_key} from {table_userbase} where {lock_state_key} != 1 and {login_state_key} != 1".format(
														
 
															-            username_key=self._username_key,
														
 
															-            password_key=self._password_key,
														
 
															-            table_userbase=self._table_userbase,
														
 
															-            lock_state_key=self._lock_state_key,
														
 
															-            login_state_key=self._login_state_key,
														
 
															-        )
														
 
															-
														
 
															-        return self._mysqldb.find(sql)
														
 
															+        return self._mongo.find(self._table_userbase,{self._lock_state_key:0,self._login_state_key:0})
														
 
															     def handle_login_failed_user(self, username, password):
														
 
															         """
														
@@ -305,16 +278,13 @@ class LoginCookiePool(CookiePoolInterface):
 
															         user_cookie = {"username": username, "cookie": cookie}
														
 
															         self._redisdb.lpush(self._tab_cookie_pool, user_cookie)
														
 
															+        self._mongo.add(
														
 
															+                coll_name=self._table_userbase,
														
 
															+                data={self._login_state_key:1},
														
 
															+                update_columns=self._username_key,
														
 
															+                update_columns_value=username)
														
 
															-        sql = "update {table_userbase} set {login_state_key} = 1 where {username_key} = '{username}'".format(
														
 
															-            table_userbase=self._table_userbase,
														
 
															-            login_state_key=self._login_state_key,
														
 
															-            username_key=self._username_key,
														
 
															-            username=username,
														
 
															-        )
														
 
															-
														
 
															-        self._mysqldb.update(sql)
														
 
															-
														
 
															+    @func_set_timeout(60)
														
 
															     def get_cookie(self, wait_when_null=True) -> User:
														
 
															         while True:
														
 
															             try:
														
@@ -342,24 +312,19 @@ class LoginCookiePool(CookiePoolInterface):
 
															         user_info = {"username": user.username, "cookie": user.cookie}
														
 
															         self._redisdb.lrem(self._tab_cookie_pool, user_info)
														
 
															-        sql = "update {table_userbase} set {login_state_key} = 0 where {username_key} = '{username}'".format(
														
 
															-            table_userbase=self._table_userbase,
														
 
															-            login_state_key=self._login_state_key,
														
 
															-            username_key=self._username_key,
														
 
															-            username=user.username,
														
 
															-        )
														
 
															-
														
 
															-        self._mysqldb.update(sql)
														
 
															+        self._mongo.add(
														
 
															+            coll_name=self._table_userbase,
														
 
															+            data={self._login_state_key: 1},
														
 
															+            update_columns=self._username_key,
														
 
															+            update_columns_value=user.username)
														
 
															     def user_is_locked(self, user: User):
														
 
															-        sql = "update {table_userbase} set {lock_state_key} = 1 where {username_key} = '{username}'".format(
														
 
															-            table_userbase=self._table_userbase,
														
 
															-            lock_state_key=self._lock_state_key,
														
 
															-            username_key=self._username_key,
														
 
															-            username=user.username,
														
 
															-        )
														
 
															-        self._mysqldb.update(sql)
														
 
															+        self._mongo.add(
														
 
															+            coll_name=self._table_userbase,
														
 
															+            data={self._lock_state_key: 1},
														
 
															+            update_columns=self._username_key,
														
 
															+            update_columns_value=user.username)
														
 
															     def run(self):
														
 
															         with RedisLock(
														
@@ -373,7 +338,9 @@ class LoginCookiePool(CookiePoolInterface):
 
															                 if not user_infos:
														
 
															                     log.info("无可用用户")
														
 
															-                for username, password in user_infos:
														
 
															+                for info in user_infos:
														
 
															+                    username = info.get("username")
														
 
															+                    password = info.get("password")
														
 
															                     for i in range(self._login_retry_times):
														
 
															                         try:
														
 
															                             cookie = self.create_cookie(username, password)
														
--- a/FworkSpider/feapder/network/item.py
+++ b/FworkSpider/feapder/network/item.py
@@ -1,20 +0,0 @@
 
															-117.88.5.96:8860


														
 
															-111.179.93.27:8861


														
 
															-111.179.93.27:8860


														
 
															-113.226.100.155:8861


														
 
															-113.226.100.155:8860


														
 
															-114.99.103.81:8861


														
 
															-171.13.51.41:8861


														
 
															-114.99.103.81:8860


														
 
															-171.13.51.41:8860


														
 
															-125.41.17.67:8861


														
 
															-125.41.17.67:8860


														
 
															-113.123.0.127:8861


														
 
															-117.88.5.96:8861


														
 
															-182.101.196.230:8861


														
 
															-113.123.0.127:8860


														
 
															-182.101.196.230:8860


														
 
															-182.34.102.234:8861


														
 
															-182.34.102.234:8860


														
 
															-117.88.4.100:8861


														
 
															-117.88.4.100:8860
														
--- a/FworkSpider/feapder/network/proxy_file/a62f3217a0981b7b2117d9d0af64c2db.txt
+++ b/FworkSpider/feapder/network/proxy_file/a62f3217a0981b7b2117d9d0af64c2db.txt
@@ -1,20 +0,0 @@
 
															-122.159.219.174:8860&&1653299700
														
 
															-182.34.19.216:8860&&1653299010
														
 
															-106.35.223.168:8861&&1653298655
														
 
															-125.45.91.69:8861&&1653298844
														
 
															-125.45.91.69:8860&&1653298844
														
 
															-122.159.219.174:8861&&1653299700
														
 
															-106.35.223.168:8860&&1653298655
														
 
															-182.34.19.216:8861&&1653299010
														
 
															-113.121.20.254:8861&&1653300488
														
 
															-125.72.106.216:8861&&1653300251
														
 
															-113.121.20.254:8860&&1653300488
														
 
															-125.72.106.216:8860&&1653300251
														
 
															-119.112.80.248:8861&&1653298967
														
 
															-119.112.80.248:8860&&1653298967
														
 
															-58.213.26.197:8860&&1653298952
														
 
															-58.213.26.197:8861&&1653298952
														
 
															-113.226.110.38:8861&&1653300048
														
 
															-113.226.110.38:8860&&1653300048
														
 
															-113.121.41.156:8860&&1653299102
														
 
															-113.121.41.156:8861&&1653299102
														
--- a/FworkSpider/feapder/network/proxy_pool.py
+++ b/FworkSpider/feapder/network/proxy_pool.py
@@ -1,6 +1,6 @@
 
															-# coding:utf8
														
 
															+# -*- coding: utf-8 -*-
														
 
															 """
														
 
															-代理池  弃用
														
 
															+代理池
														
 
															 """
														
 
															 import datetime
														
 
															 import json
														
@@ -122,9 +122,9 @@ def get_proxy_from_http(proxy_source_url, **kwargs):
 
															         response = requests.get(proxy_source_url, timeout=20)
														
 
															         # 改写：获取scocks代理的response处理
														
 
															         for proxy in response.json():
														
 
															-            host = decrypt(proxy['host'])
														
 
															-            port = proxy['port']
														
 
															-            endTime = proxy['EndTime']
														
 
															+            host = decrypt(proxy['ip'])
														
 
															+            port = proxy['ports'][0]
														
 
															+            endTime = proxy['lifetime']
														
 
															             pool.append(f"{host}:{port}&&{endTime}")
														
 
															         with open(os.path.join(proxy_path, filename), "w") as f:
														
@@ -757,7 +757,3 @@ class ProxyPool(ProxyPoolBase):
 
															         :return:
														
 
															         """
														
 
															         return get_proxy_from_url(**self.kwargs)
														
 
															-# 
														
 
															-# 
														
 
															-# if __name__ == '__main__':
														
 
															-#     ProxyPool().get()
														
--- a/FworkSpider/feapder/network/request.py
+++ b/FworkSpider/feapder/network/request.py
@@ -7,9 +7,10 @@ Created on 2018-07-25 11:49:08
 
															 @author: Boris
														
 
															 @email:  boris_liu@foxmail.com
														
 
															 """
														
 
															+import copy
														
 
															+import re
														
 
															 import requests
														
 
															-from func_timeout import func_set_timeout, FunctionTimedOut
														
 
															 from requests.adapters import HTTPAdapter
														
 
															 from requests.cookies import RequestsCookieJar
														
 
															 from requests.packages.urllib3.exceptions import InsecureRequestWarning
														
@@ -18,11 +19,10 @@ import feapder.setting as setting
 
															 import feapder.utils.tools as tools
														
 
															 from feapder.db.redisdb import RedisDB
														
 
															 from feapder.network import user_agent
														
 
															-from feapder.network.proxy_pool import ProxyPool
														
 
															 from feapder.network.response import Response
														
 
															-from feapder.utils.log import Log
														
 
															+from feapder.utils.log import log
														
 
															 from feapder.utils.webdriver import WebDriverPool
														
 
															-log = Log()
														
 
															+
														
 
															 # 屏蔽warning信息
														
 
															 requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
														
@@ -40,7 +40,7 @@ class Request(object):
 
															     oss_handler = None
														
 
															     __REQUEST_ATTRS__ = {
														
 
															-        # 'method', 'url', 必须传递 不加入**kwargs中
														
 
															+        # "method", "url", 必须传递 不加入**kwargs中
														
 
															         "params",
														
 
															         "data",
														
 
															         "headers",
														
@@ -92,6 +92,7 @@ class Request(object):
 
															         render_time=0,
														
 
															         splash=False,
														
 
															         iframes=0,
														
 
															+        rel_count=0,
														
 
															         **kwargs,
														
 
															     ):
														
 
															         """
														
@@ -149,6 +150,7 @@ class Request(object):
 
															         self.render = render
														
 
															         self.splash = splash
														
 
															         self.iframes = iframes
														
 
															+        self.rel_count = rel_count
														
 
															         self.render_time = render_time or setting.WEBDRIVER.get("render_time", 0)
														
 
															         self.requests_kwargs = {}
														
@@ -200,7 +202,6 @@ class Request(object):
 
															         return self.__class__.webdriver_pool
														
 
															-
														
 
															     @property
														
 
															     def to_dict(self):
														
 
															         request_dict = {}
														
@@ -245,7 +246,6 @@ class Request(object):
 
															             else self.callback
														
 
															         )
														
 
															-    @func_set_timeout(30)
														
 
															     def get_response(self, save_cached=False):
														
 
															         """
														
 
															         获取带有selector功能的response
														
@@ -258,7 +258,9 @@ class Request(object):
 
															         )  # connect=22 read=22
														
 
															         # 设置stream
														
 
															-        # 默认情况下，当你进行网络请求后，响应体会立即被下载。你可以通过 stream 参数覆盖这个行为，推迟下载响应体直到访问 Response.content 属性。此时仅有响应头被下载下来了。缺点： stream 设为 True，Requests 无法将连接释放回连接池，除非你 消耗了所有的数据，或者调用了 Response.close。 这样会带来连接效率低下的问题。
														
 
															+        # 默认情况下，当你进行网络请求后，响应体会立即被下载。
														
 
															+        # stream=True是，调用Response.content 才会下载响应体，默认只返回header。
														
 
															+        # 缺点： stream 设为 True，Requests 无法将连接释放回连接池，除非消耗了所有的数据，或者调用了 Response.close。 这样会带来连接效率低下的问题。
														
 
															         self.requests_kwargs.setdefault("stream", True)
														
 
															         # 关闭证书验证
														
@@ -267,7 +269,7 @@ class Request(object):
 
															         # 设置请求方法
														
 
															         method = self.__dict__.get("method")
														
 
															         if not method:
														
 
															-            if "data" in self.requests_kwargs:
														
 
															+            if "data" in self.requests_kwargs or "json" in self.requests_kwargs:
														
 
															                 method = "POST"
														
 
															             else:
														
 
															                 method = "GET"
														
@@ -329,7 +331,6 @@ class Request(object):
 
															             )
														
 
															         )
														
 
															-
														
 
															         use_session = (
														
 
															             setting.USE_SESSION if self.use_session is None else self.use_session
														
 
															         )  # self.use_session 优先级高
														
@@ -338,7 +339,7 @@ class Request(object):
 
															             # 使用request的user_agent、cookies、proxy
														
 
															             user_agent = headers.get("User-Agent") or headers.get("user-agent")
														
 
															             cookies = self.requests_kwargs.get("cookies")
														
 
															-            print(cookies)
														
 
															+            print(f'cookies >>>  {cookies}')
														
 
															             if cookies and isinstance(cookies, RequestsCookieJar):
														
 
															                 cookies = cookies.get_dict()
														
@@ -347,9 +348,7 @@ class Request(object):
 
															                 if cookie_str:
														
 
															                     cookies = tools.get_cookies_from_str(cookie_str)
														
 
															-
														
 
															             browser = self._webdriver_pool.get(user_agent=user_agent, proxy=False)
														
 
															-
														
 
															             try:
														
 
															                 if proxies:
														
 
															                     self.chage_ip(browser)
														
@@ -375,24 +374,21 @@ class Request(object):
 
															                         },
														
 
															                     }
														
 
															                 )
														
 
															-
														
 
															                 response.browser = browser
														
 
															             except Exception as e:
														
 
															                 self._webdriver_pool.remove(browser)
														
 
															                 raise e
														
 
															-
														
 
															         elif use_session:
														
 
															             response = self._session.request(method, self.url, **self.requests_kwargs)
														
 
															             response = Response(response)
														
 
															         elif self.splash:
														
 
															-            resp = requests.get(setting.JIANYU_SPLASH_URL, params={
														
 
															+            resp = requests.get(setting.SWORDFISH_RENDER_URL, params={
														
 
															                 'iframes': self.iframes,
														
 
															                 'wait': self.render_time,
														
 
															                 'html': 1,
														
 
															-                'proxy': self.get_proxy().get("http"),
														
 
															+                'proxy': {} if self.proxies == False else self.get_proxy().get("http"),
														
 
															                 'url': self.url
														
 
															             })
														
 
															-
														
 
															             response = Response(resp)
														
 
															             # if self.iframes:
														
@@ -433,7 +429,6 @@ class Request(object):
 
															         if save_cached:
														
 
															             self.save_cached(response, expire_time=self.__class__.cached_expire_time)
														
 
															-        log.info("requests",extra={"url":response.url,"code":response.status_code})
														
 
															         return response
														
 
															     def proxies(self):
														
@@ -450,19 +445,17 @@ class Request(object):
 
															         """
														
 
															         proxies = self.proxies()
														
 
															         if proxies:
														
 
															-            return proxies.get("http", "").strip("http://") or proxies.get(
														
 
															-                "https", ""
														
 
															-            ).strip("https://")
														
 
															+            return re.sub(
														
 
															+                "http.*?//", "", proxies.get("http", "") or proxies.get("https", "")
														
 
															+            )
														
 
															     def get_proxy(self):
														
 
															-        headers = {
														
 
															-            "Authorization": setting.JIANYU_PROXY_AUTHOR
														
 
															-        }
														
 
															-        proxy = requests.get(setting.JIANYU_PROXY_URL, headers=headers).json()
														
 
															+        headers = {"Authorization": setting.SWORDFISH_PROXY_AUTHOR}
														
 
															+        proxy = requests.get(setting.SWORDFISH_PROXY_URL, headers=headers).json()
														
 
															         print(f"切换代理：{proxy.get('data')}")
														
 
															         return proxy.get("data")
														
 
															-    def chage_ip(self,browser):
														
 
															+    def chage_ip(self, browser):
														
 
															         ip = self.get_proxy().get("http")  # ip格式"127.0.0.1:80"
														
 
															         ip = ip.split("//")[-1]
														
 
															         browser.get("about:config")
														
@@ -472,8 +465,7 @@ class Request(object):
 
															         prefs.setIntPref("network.proxy.type", 1);
														
 
															         prefs.setCharPref("network.proxy.socks", "%s");
														
 
															         prefs.setIntPref("network.proxy.socks_port", "%s");
														
 
															-        ''' % (
														
 
															-        ip.split(':')[0], ip.split(':')[1])
														
 
															+        ''' % (ip.split(':')[0], ip.split(':')[1])
														
 
															         # 执行js
														
 
															         browser.execute_script(setupScript)
														
@@ -542,13 +534,7 @@ class Request(object):
 
															         response_dict = self._cache_db.strget(self._cached_redis_key)
														
 
															         if not response_dict:
														
 
															             log.info("无response缓存  重新下载")
														
 
															-            try:
														
 
															-                response_obj = self.get_response(save_cached=save_cached)
														
 
															-            except FunctionTimedOut:
														
 
															-                response_obj = None
														
 
															-                log.info("请求超时")
														
 
															-                log.info("requests", extra={"url": self.url, "code": 0})
														
 
															-
														
 
															+            response_obj = self.get_response(save_cached=save_cached)
														
 
															         else:
														
 
															             response_dict = eval(response_dict)
														
 
															             response_obj = Response.from_dict(response_dict)
														
@@ -566,4 +552,4 @@ class Request(object):
 
															         return cls(**request_dict)
														
 
															     def copy(self):
														
 
															-        return self.__class__.from_dict(self.to_dict)
														
 
															+        return self.__class__.from_dict(copy.deepcopy(self.to_dict))
														
--- a/FworkSpider/feapder/network/request6.29.py
+++ b/FworkSpider/feapder/network/request6.29.py
@@ -1,513 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""
														
 
															-Created on 2018-07-25 11:49:08
														
 
															----------
														
 
															-@summary: 请求结构体
														
 
															----------
														
 
															-@author: Boris
														
 
															-@email:  boris_liu@foxmail.com
														
 
															-"""
														
 
															-
														
 
															-import requests
														
 
															-from func_timeout import func_set_timeout, FunctionTimedOut
														
 
															-from requests.adapters import HTTPAdapter
														
 
															-from requests.cookies import RequestsCookieJar
														
 
															-from requests.packages.urllib3.exceptions import InsecureRequestWarning
														
 
															-
														
 
															-import feapder.setting as setting
														
 
															-import feapder.utils.tools as tools
														
 
															-from feapder.db.redisdb import RedisDB
														
 
															-from feapder.network import user_agent
														
 
															-from feapder.network.proxy_pool import ProxyPool
														
 
															-from feapder.network.response import Response
														
 
															-from feapder.utils.log import Log
														
 
															-from feapder.utils.webdriver import WebDriverPool
														
 
															-log = Log()
														
 
															-# 屏蔽warning信息
														
 
															-requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
														
 
															-
														
 
															-
														
 
															-class Request(object):
														
 
															-    session = None
														
 
															-    webdriver_pool: WebDriverPool = None
														
 
															-    user_agent_pool = user_agent
														
 
															-    proxies_pool: ProxyPool = None
														
 
															-
														
 
															-    cache_db = None  # redis / pika
														
 
															-    cached_redis_key = None  # 缓存response的文件文件夹 response_cached:cached_redis_key:md5
														
 
															-    cached_expire_time = 1200  # 缓存过期时间
														
 
															-
														
 
															-    local_filepath = None
														
 
															-    oss_handler = None
														
 
															-
														
 
															-    __REQUEST_ATTRS__ = {
														
 
															-        # 'method', 'url', 必须传递 不加入**kwargs中
														
 
															-        "params",
														
 
															-        "data",
														
 
															-        "headers",
														
 
															-        "cookies",
														
 
															-        "files",
														
 
															-        "auth",
														
 
															-        "timeout",
														
 
															-        "allow_redirects",
														
 
															-        "proxies",
														
 
															-        "hooks",
														
 
															-        "stream",
														
 
															-        "verify",
														
 
															-        "cert",
														
 
															-        "json",
														
 
															-    }
														
 
															-
														
 
															-    DEFAULT_KEY_VALUE = dict(
														
 
															-        url="",
														
 
															-        retry_times=0,
														
 
															-        priority=300,
														
 
															-        parser_name=None,
														
 
															-        callback=None,
														
 
															-        filter_repeat=True,
														
 
															-        auto_request=True,
														
 
															-        request_sync=False,
														
 
															-        use_session=None,
														
 
															-        random_user_agent=True,
														
 
															-        download_midware=None,
														
 
															-        is_abandoned=False,
														
 
															-        render=False,
														
 
															-        render_time=0,
														
 
															-    )
														
 
															-
														
 
															-    def __init__(
														
 
															-        self,
														
 
															-        url="",
														
 
															-        retry_times=0,
														
 
															-        priority=300,
														
 
															-        parser_name=None,
														
 
															-        callback=None,
														
 
															-        filter_repeat=True,
														
 
															-        auto_request=True,
														
 
															-        request_sync=False,
														
 
															-        use_session=None,
														
 
															-        random_user_agent=True,
														
 
															-        download_midware=None,
														
 
															-        is_abandoned=False,
														
 
															-        render=False,
														
 
															-        render_time=0,
														
 
															-        **kwargs,
														
 
															-    ):
														
 
															-        """
														
 
															-        @summary: Request参数
														
 
															-        ---------
														
 
															-        框架参数
														
 
															-        @param url: 待抓取url
														
 
															-        @param retry_times: 当前重试次数
														
 
															-        @param priority: 优先级 越小越优先 默认300
														
 
															-        @param parser_name: 回调函数所在的类名 默认为当前类
														
 
															-        @param callback: 回调函数 可以是函数 也可是函数名（如想跨类回调时，parser_name指定那个类名，callback指定那个类想回调的方法名即可）
														
 
															-        @param filter_repeat: 是否需要去重 (True/False) 当setting中的REQUEST_FILTER_ENABLE设置为True时该参数生效 默认True
														
 
															-        @param auto_request: 是否需要自动请求下载网页 默认是。设置为False时返回的response为空，需要自己去请求网页
														
 
															-        @param request_sync: 是否同步请求下载网页，默认异步。如果该请求url过期时间快，可设置为True，相当于yield的reqeust会立即响应，而不是去排队
														
 
															-        @param use_session: 是否使用session方式
														
 
															-        @param random_user_agent: 是否随机User-Agent (True/False) 当setting中的RANDOM_HEADERS设置为True时该参数生效 默认True
														
 
															-        @param download_midware: 下载中间件。默认为parser中的download_midware
														
 
															-        @param is_abandoned: 当发生异常时是否放弃重试 True/False. 默认False
														
 
															-        @param render: 是否用浏览器渲染
														
 
															-        @param render_time: 渲染时长，即打开网页等待指定时间后再获取源码
														
 
															-        --
														
 
															-        以下参数与requests参数使用方式一致
														
 
															-        @param method: 请求方式，如POST或GET，默认根据data值是否为空来判断
														
 
															-        @param params: 请求参数
														
 
															-        @param data: 请求body
														
 
															-        @param json: 请求json字符串，同 json.dumps(data)
														
 
															-        @param headers:
														
 
															-        @param cookies: 字典 或 CookieJar 对象
														
 
															-        @param files:
														
 
															-        @param auth:
														
 
															-        @param timeout: (浮点或元组)等待服务器数据的超时限制，是一个浮点数，或是一个(connect timeout, read timeout) 元组
														
 
															-        @param allow_redirects : Boolean. True 表示允许跟踪 POST/PUT/DELETE 方法的重定向
														
 
															-        @param proxies: 代理 {"http":"http://xxx", "https":"https://xxx"}
														
 
															-        @param verify: 为 True 时将会验证 SSL 证书
														
 
															-        @param stream: 如果为 False，将会立即下载响应内容
														
 
															-        @param cert:
														
 
															-        --
														
 
															-        @param **kwargs: 其他值: 如 Request(item=item) 则item可直接用 request.item 取出
														
 
															-        ---------
														
 
															-        @result:
														
 
															-        """
														
 
															-
														
 
															-        self.url = url
														
 
															-        self.retry_times = retry_times
														
 
															-        self.priority = priority
														
 
															-        self.parser_name = parser_name
														
 
															-        self.callback = callback
														
 
															-        self.filter_repeat = filter_repeat
														
 
															-        self.auto_request = auto_request
														
 
															-        self.request_sync = request_sync
														
 
															-        self.use_session = use_session
														
 
															-        self.random_user_agent = random_user_agent
														
 
															-        self.download_midware = download_midware
														
 
															-        self.is_abandoned = is_abandoned
														
 
															-        self.render = render
														
 
															-        self.render_time = render_time or setting.WEBDRIVER.get("render_time", 0)
														
 
															-
														
 
															-        self.requests_kwargs = {}
														
 
															-        for key, value in kwargs.items():
														
 
															-            if key in self.__class__.__REQUEST_ATTRS__:  # 取requests参数
														
 
															-                self.requests_kwargs[key] = value
														
 
															-
														
 
															-            self.__dict__[key] = value
														
 
															-
														
 
															-    def __repr__(self):
														
 
															-        try:
														
 
															-            return "<Request {}>".format(self.url)
														
 
															-        except:
														
 
															-            return "<Request {}>".format(str(self.to_dict)[:40])
														
 
															-
														
 
															-    def __setattr__(self, key, value):
														
 
															-        """
														
 
															-        针对 request.xxx = xxx 的形式，更新reqeust及内部参数值
														
 
															-        @param key:
														
 
															-        @param value:
														
 
															-        @return:
														
 
															-        """
														
 
															-        self.__dict__[key] = value
														
 
															-
														
 
															-        if key in self.__class__.__REQUEST_ATTRS__:
														
 
															-            self.requests_kwargs[key] = value
														
 
															-
														
 
															-    def __lt__(self, other):
														
 
															-        return self.priority < other.priority
														
 
															-
														
 
															-    @property
														
 
															-    def _session(self):
														
 
															-        use_session = (
														
 
															-            setting.USE_SESSION if self.use_session is None else self.use_session
														
 
															-        )  # self.use_session 优先级高
														
 
															-        if use_session and not self.__class__.session:
														
 
															-            self.__class__.session = requests.Session()
														
 
															-            # pool_connections – 缓存的 urllib3 连接池个数  pool_maxsize – 连接池中保存的最大连接数
														
 
															-            http_adapter = HTTPAdapter(pool_connections=1000, pool_maxsize=1000)
														
 
															-            # 任何使用该session会话的 HTTP 请求，只要其 URL 是以给定的前缀开头，该传输适配器就会被使用到。
														
 
															-            self.__class__.session.mount("http", http_adapter)
														
 
															-
														
 
															-        return self.__class__.session
														
 
															-
														
 
															-    @property
														
 
															-    def _webdriver_pool(self):
														
 
															-        if not self.__class__.webdriver_pool:
														
 
															-            self.__class__.webdriver_pool = WebDriverPool(**setting.WEBDRIVER)
														
 
															-
														
 
															-        return self.__class__.webdriver_pool
														
 
															-
														
 
															-    @property
														
 
															-    def _proxies_pool(self):
														
 
															-        if not self.__class__.proxies_pool:
														
 
															-            self.__class__.proxies_pool = ProxyPool()
														
 
															-
														
 
															-        return self.__class__.proxies_pool
														
 
															-
														
 
															-    @property
														
 
															-    def to_dict(self):
														
 
															-        request_dict = {}
														
 
															-
														
 
															-        self.callback = (
														
 
															-            getattr(self.callback, "__name__")
														
 
															-            if callable(self.callback)
														
 
															-            else self.callback
														
 
															-        )
														
 
															-        self.download_midware = (
														
 
															-            getattr(self.download_midware, "__name__")
														
 
															-            if callable(self.download_midware)
														
 
															-            else self.download_midware
														
 
															-        )
														
 
															-
														
 
															-        for key, value in self.__dict__.items():
														
 
															-            if (
														
 
															-                key in self.__class__.DEFAULT_KEY_VALUE
														
 
															-                and self.__class__.DEFAULT_KEY_VALUE.get(key) == value
														
 
															-                or key == "requests_kwargs"
														
 
															-            ):
														
 
															-                continue
														
 
															-
														
 
															-            if key in self.__class__.__REQUEST_ATTRS__:
														
 
															-                if not isinstance(
														
 
															-                    value, (bytes, bool, float, int, str, tuple, list, dict)
														
 
															-                ):
														
 
															-                    value = tools.dumps_obj(value)
														
 
															-            else:
														
 
															-                if not isinstance(value, (bytes, bool, float, int, str)):
														
 
															-                    value = tools.dumps_obj(value)
														
 
															-
														
 
															-            request_dict[key] = value
														
 
															-
														
 
															-        return request_dict
														
 
															-
														
 
															-    @property
														
 
															-    def callback_name(self):
														
 
															-        return (
														
 
															-            getattr(self.callback, "__name__")
														
 
															-            if callable(self.callback)
														
 
															-            else self.callback
														
 
															-        )
														
 
															-
														
 
															-    @func_set_timeout(30)
														
 
															-    def get_response(self, save_cached=False):
														
 
															-        """
														
 
															-        获取带有selector功能的response
														
 
															-        @param save_cached: 保存缓存 方便调试时不用每次都重新下载
														
 
															-        @return:
														
 
															-        """
														
 
															-        # 设置超时默认时间
														
 
															-        self.requests_kwargs.setdefault(
														
 
															-            "timeout", setting.REQUEST_TIMEOUT
														
 
															-        )  # connect=22 read=22
														
 
															-
														
 
															-        # 设置stream
														
 
															-        # 默认情况下，当你进行网络请求后，响应体会立即被下载。你可以通过 stream 参数覆盖这个行为，推迟下载响应体直到访问 Response.content 属性。此时仅有响应头被下载下来了。缺点： stream 设为 True，Requests 无法将连接释放回连接池，除非你 消耗了所有的数据，或者调用了 Response.close。 这样会带来连接效率低下的问题。
														
 
															-        self.requests_kwargs.setdefault("stream", True)
														
 
															-
														
 
															-        # 关闭证书验证
														
 
															-        self.requests_kwargs.setdefault("verify", False)
														
 
															-
														
 
															-        # 设置请求方法
														
 
															-        method = self.__dict__.get("method")
														
 
															-        if not method:
														
 
															-            if "data" in self.requests_kwargs:
														
 
															-                method = "POST"
														
 
															-            else:
														
 
															-                method = "GET"
														
 
															-
														
 
															-        # 随机user—agent
														
 
															-        headers = self.requests_kwargs.get("headers", {})
														
 
															-        if "user-agent" not in headers and "User-Agent" not in headers:
														
 
															-            if self.render:  # 如果是渲染默认，优先使用WEBDRIVER中配置的ua
														
 
															-                ua = setting.WEBDRIVER.get(
														
 
															-                    "user_agent"
														
 
															-                ) or self.__class__.user_agent_pool.get(setting.USER_AGENT_TYPE)
														
 
															-            else:
														
 
															-                ua = self.__class__.user_agent_pool.get(setting.USER_AGENT_TYPE)
														
 
															-
														
 
															-            if self.random_user_agent and setting.RANDOM_HEADERS:
														
 
															-                headers.update({"User-Agent": ua})
														
 
															-                self.requests_kwargs.update(headers=headers)
														
 
															-        else:
														
 
															-            self.requests_kwargs.setdefault(
														
 
															-                "headers", {"User-Agent": setting.DEFAULT_USERAGENT}
														
 
															-            )
														
 
															-
														
 
															-        # 代理
														
 
															-        proxies = self.requests_kwargs.get("proxies", -1)
														
 
															-        if proxies == -1 and setting.PROXY_ENABLE and setting.PROXY_EXTRACT_API:
														
 
															-            while True:
														
 
															-                proxies = self._proxies_pool.get()
														
 
															-                if proxies:
														
 
															-                    self.requests_kwargs.update(proxies=proxies)
														
 
															-                    break
														
 
															-                else:
														
 
															-                    log.debug("暂无可用代理 ...")
														
 
															-
														
 
															-        log.debug(
														
 
															-            """
														
 
															-                -------------- %srequest for ----------------
														
 
															-                url  = %s
														
 
															-                method = %s
														
 
															-                body = %s
														
 
															-                """
														
 
															-            % (
														
 
															-                ""
														
 
															-                if not self.parser_name
														
 
															-                else "%s.%s "
														
 
															-                % (
														
 
															-                    self.parser_name,
														
 
															-                    (
														
 
															-                        self.callback
														
 
															-                        and callable(self.callback)
														
 
															-                        and getattr(self.callback, "__name__")
														
 
															-                        or self.callback
														
 
															-                    )
														
 
															-                    or "parse",
														
 
															-                ),
														
 
															-                self.url,
														
 
															-                method,
														
 
															-                self.requests_kwargs,
														
 
															-            )
														
 
															-        )
														
 
															-
														
 
															-        # def hooks(response, *args, **kwargs):
														
 
															-        #     print(response.url)
														
 
															-        #
														
 
															-        # self.requests_kwargs.update(hooks={'response': hooks})
														
 
															-
														
 
															-        use_session = (
														
 
															-            setting.USE_SESSION if self.use_session is None else self.use_session
														
 
															-        )  # self.use_session 优先级高
														
 
															-
														
 
															-        if self.render:
														
 
															-            # 使用request的user_agent、cookies、proxy
														
 
															-            user_agent = headers.get("User-Agent") or headers.get("user-agent")
														
 
															-            cookies = self.requests_kwargs.get("cookies")
														
 
															-            print(cookies)
														
 
															-            if cookies and isinstance(cookies, RequestsCookieJar):
														
 
															-                cookies = cookies.get_dict()
														
 
															-
														
 
															-            if not cookies:
														
 
															-                cookie_str = headers.get("Cookie") or headers.get("cookie")
														
 
															-                if cookie_str:
														
 
															-                    cookies = tools.get_cookies_from_str(cookie_str)
														
 
															-
														
 
															-            proxy = None
														
 
															-            if proxies and proxies != -1:
														
 
															-                proxy = proxies.get("http", "").strip("http://") or proxies.get(
														
 
															-                    "https", ""
														
 
															-                ).strip("https://")
														
 
															-
														
 
															-            browser = self._webdriver_pool.get(user_agent=user_agent, proxy=proxy)
														
 
															-
														
 
															-            try:
														
 
															-                browser.get(self.url)
														
 
															-                if cookies:
														
 
															-                    browser.cookies = cookies
														
 
															-                if self.render_time:
														
 
															-                    tools.delay_time(self.render_time)
														
 
															-
														
 
															-                html = browser.page_source
														
 
															-                response = Response.from_dict(
														
 
															-                    {
														
 
															-                        "url": browser.current_url,
														
 
															-                        "cookies": browser.cookies,
														
 
															-                        "_content": html.encode(),
														
 
															-                        "status_code": 200,
														
 
															-                        "elapsed": 666,
														
 
															-                        "headers": {
														
 
															-                            "User-Agent": browser.execute_script(
														
 
															-                                "return navigator.userAgent"
														
 
															-                            ),
														
 
															-                            "Cookie": tools.cookies2str(browser.cookies),
														
 
															-                        },
														
 
															-                    }
														
 
															-                )
														
 
															-
														
 
															-                response.browser = browser
														
 
															-            except Exception as e:
														
 
															-                self._webdriver_pool.remove(browser)
														
 
															-                raise e
														
 
															-
														
 
															-        elif use_session:
														
 
															-            response = self._session.request(method, self.url, **self.requests_kwargs)
														
 
															-            response = Response(response)
														
 
															-        else:
														
 
															-            response = requests.request(method, self.url, **self.requests_kwargs)
														
 
															-            response = Response(response)
														
 
															-
														
 
															-        if save_cached:
														
 
															-            self.save_cached(response, expire_time=self.__class__.cached_expire_time)
														
 
															-        log.info("requests",extra={"url":response.url,"code":response.status_code})
														
 
															-        return response
														
 
															-
														
 
															-    def proxies(self):
														
 
															-        """
														
 
															-
														
 
															-        Returns: {"https": "https://ip:port", "http": "http://ip:port"}
														
 
															-
														
 
															-        """
														
 
															-        return self.requests_kwargs.get("proxies")
														
 
															-
														
 
															-    def proxy(self):
														
 
															-        """
														
 
															-
														
 
															-        Returns: ip:port
														
 
															-
														
 
															-        """
														
 
															-        proxies = self.proxies()
														
 
															-        if proxies:
														
 
															-            return proxies.get("http", "").strip("http://") or proxies.get(
														
 
															-                "https", ""
														
 
															-            ).strip("https://")
														
 
															-
														
 
															-    def user_agent(self):
														
 
															-        headers = self.requests_kwargs.get("headers")
														
 
															-        if headers:
														
 
															-            return headers.get("user_agent") or headers.get("User-Agent")
														
 
															-
														
 
															-    @property
														
 
															-    def fingerprint(self):
														
 
															-        """
														
 
															-        request唯一表识
														
 
															-        @return:
														
 
															-        """
														
 
															-        url = self.__dict__.get("url", "")
														
 
															-        # url 归一化
														
 
															-        url = tools.canonicalize_url(url)
														
 
															-        args = [url]
														
 
															-
														
 
															-        for arg in ["params", "data", "files", "auth", "cert", "json"]:
														
 
															-            if self.requests_kwargs.get(arg):
														
 
															-                args.append(self.requests_kwargs.get(arg))
														
 
															-
														
 
															-        return tools.get_md5(*args)
														
 
															-
														
 
															-    @property
														
 
															-    def _cache_db(self):
														
 
															-        if not self.__class__.cache_db:
														
 
															-            self.__class__.cache_db = RedisDB()  # .from_url(setting.pika_spider_1_uri)
														
 
															-
														
 
															-        return self.__class__.cache_db
														
 
															-
														
 
															-    @property
														
 
															-    def _cached_redis_key(self):
														
 
															-        if self.__class__.cached_redis_key:
														
 
															-            return (
														
 
															-                f"response_cached:{self.__class__.cached_redis_key}:{self.fingerprint}"
														
 
															-            )
														
 
															-        else:
														
 
															-            return f"response_cached:test:{self.fingerprint}"
														
 
															-
														
 
															-    def save_cached(self, response, expire_time=1200):
														
 
															-        """
														
 
															-        使用redis保存response 用于调试 不用每回都下载
														
 
															-        @param response:
														
 
															-        @param expire_time: 过期时间
														
 
															-        @return:
														
 
															-        """
														
 
															-
														
 
															-        self._cache_db.strset(self._cached_redis_key, response.to_dict, ex=expire_time)
														
 
															-
														
 
															-    def get_response_from_cached(self, save_cached=True):
														
 
															-        """
														
 
															-        从缓存中获取response
														
 
															-        注意：
														
 
															-            属性值为空：
														
 
															-                -raw ： urllib3.response.HTTPResponse
														
 
															-                -connection：requests.adapters.HTTPAdapter
														
 
															-                -history
														
 
															-
														
 
															-            属性含义改变：
														
 
															-                - request 由requests 改为Request
														
 
															-        @param: save_cached 当无缓存 直接下载 下载完是否保存缓存
														
 
															-        @return:
														
 
															-        """
														
 
															-        response_dict = self._cache_db.strget(self._cached_redis_key)
														
 
															-        if not response_dict:
														
 
															-            log.info("无response缓存  重新下载")
														
 
															-            try:
														
 
															-                response_obj = self.get_response(save_cached=save_cached)
														
 
															-            except FunctionTimedOut:
														
 
															-                log.info("请求超时")
														
 
															-                log.info("requests", extra={"url": self.url, "code": 0})
														
 
															-
														
 
															-        else:
														
 
															-            response_dict = eval(response_dict)
														
 
															-            response_obj = Response.from_dict(response_dict)
														
 
															-        return response_obj
														
 
															-
														
 
															-    def del_response_cached(self):
														
 
															-        self._cache_db.clear(self._cached_redis_key)
														
 
															-
														
 
															-    @classmethod
														
 
															-    def from_dict(cls, request_dict):
														
 
															-        for key, value in request_dict.items():
														
 
															-            if isinstance(value, bytes):  # 反序列化 如item
														
 
															-                request_dict[key] = tools.loads_obj(value)
														
 
															-
														
 
															-        return cls(**request_dict)
														
 
															-
														
 
															-    def copy(self):
														
 
															-        return self.__class__.from_dict(self.to_dict)
														
--- a/FworkSpider/feapder/network/response.py
+++ b/FworkSpider/feapder/network/response.py
@@ -14,4 +14,5 @@ redis-py-cluster>=2.1.0
 
															 cryptography>=3.3.2
														
 
															 urllib3>=1.25.8
														
 
															 loguru>=0.5.3
														
 
															-influxdb>=5.3.1
														
 
															+influxdb>=5.3.1
														
 
															+func-timeout==4.3.5
														
--- a/FworkSpider/feapder/setting.py
+++ b/FworkSpider/feapder/setting.py
@@ -4,9 +4,9 @@ import os
 
															 # redis 表名
														
 
															 # 任务表模版
														
 
															-TAB_REQUSETS = "{redis_key}:z_requsets"
														
 
															+TAB_REQUESTS = "{redis_key}:z_requests"
														
 
															 # 任务失败模板
														
 
															-TAB_FAILED_REQUSETS = "{redis_key}:z_failed_requsets"
														
 
															+TAB_FAILED_REQUESTS = "{redis_key}:z_failed_requests"
														
 
															 # 数据保存失败模板
														
 
															 TAB_FAILED_ITEMS = "{redis_key}:s_failed_items"
														
 
															 # 爬虫状态表模版
														
@@ -78,6 +78,8 @@ WEBDRIVER = dict(
 
															 # 爬虫启动时，重新抓取失败的requests
														
 
															 RETRY_FAILED_REQUESTS = False
														
 
															+# 爬虫启动时，重新入库失败的item
														
 
															+RETRY_FAILED_ITEMS = False
														
 
															 # 保存失败的request
														
 
															 SAVE_FAILED_REQUEST = True
														
 
															 # request防丢机制。（指定的REQUEST_LOST_TIMEOUT时间内request还没做完，会重新下发 重做）
														
@@ -111,11 +113,11 @@ USE_SESSION = False
 
															 # 去重
														
 
															 ITEM_FILTER_ENABLE = False  # item 去重
														
 
															 ITEM_FILTER_SETTING = dict(
														
 
															-    filter_type=1  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3
														
 
															+    filter_type=1  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3、轻量去重（LiteFilter）= 4、集群去重（SwordFishFilter）= 5
														
 
															 )
														
 
															 REQUEST_FILTER_ENABLE = False  # request 去重
														
 
															 REQUEST_FILTER_SETTING = dict(
														
 
															-    filter_type=3,  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3
														
 
															+    filter_type=3,  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3、 轻量去重（LiteFilter）= 4、集群去重（SwordFishFilter）= 5
														
 
															     expire_time=2592000,  # 过期时间1个月
														
 
															 )
														
--- a/FworkSpider/feapder/templates/air_spider_template.tmpl
+++ b/FworkSpider/feapder/templates/air_spider_template.tmpl
@@ -6,20 +6,22 @@ Created on {DATE}
 
															 ---------
														
 
															 @author: {USER}
														
 
															 """
														
 
															+import re
														
 
															 import sys
														
 
															 sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 import time
														
 
															 from urllib.parse import urljoin
														
 
															-
														
 
															 import feapder
														
 
															 from feapder.utils.tools import wechat_warning
														
 
															+from untils.attachment import AttachmentDownloader
														
 
															 import execjs
														
 
															 from items.spider_item import DataBakItem, MgpListItem
														
 
															 from feapder.db.mongodb import MongoDB
														
 
															+from feapder.utils.log import log
														
 
															-class ${spider_name}(feapder.Spider):
														
 
															+class Details(feapder.Spider):
														
 
															     _to_db = None
														
 
															     db_name = 'mgp_list'
														
 
															     send_list = []
														
@@ -32,51 +34,122 @@ class ${spider_name}(feapder.Spider):
 
															     def start_requests(self):
														
 
															         while True:
														
 
															-            data_lsit = self.to_db.find(self.db_name,{"parser_name":"${spider_name}"},sort={"failed":-1},limit=50)
														
 
															+            data_lsit = self.to_db.find(self.db_name,{"parser_name":"${spider_name}"},limit=50)
														
 
															             for item in data_lsit:
														
 
															+                log.debug(item.get("item"))
														
 
															                 request_params = item.get("request_params")
														
 
															-
														
 
															-                '''可自定义'''
														
 
															-
														
 
															-                yield feapder.Request(url=item.get("parse_url"),item=item.get("item"),
														
 
															-                                      deal_detail=item.get("deal_detail"),**request_params,
														
 
															-                                      callback=eval(item.get("parse")),base_info=item,proxies=item.get("proxies"))
														
 
															-                self.to_db.delete(self.db_name,item)
														
 
															+                is_join_html = item.get("is_join_html")          # 正文是否根据xpath拼接
														
 
															+                extra_html = item.get("extra_html")              # 过滤无效内容
														
 
															+                if item.get("proxies"):
														
 
															+                    yield feapder.Request(url=item.get("parse_url"),item=item.get("item"),files_info=item.get("files"),
														
 
															+                                          deal_detail=item.get("deal_detail"),is_join_html=is_join_html,extra_html=extra_html,
														
 
															+                                          callback=eval(item.get("parse")),base_info=item,**request_params)
														
 
															+                else:
														
 
															+                    yield feapder.Request(url=item.get("parse_url"), item=item.get("item"), files_info=item.get("files"),
														
 
															+                                          deal_detail=item.get("deal_detail"),is_join_html=is_join_html,extra_html=extra_html,
														
 
															+                                          callback=eval(item.get("parse")), base_info=item,proxies=False,**request_params)
														
 
															+                self.to_db.delete(self.db_name, {"_id": item.get("_id")})
														
 
															             break
														
 
															     def detail_get(self,request,response):
														
 
															-        '''需自定义解析规则'''
														
 
															+
														
 
															         items = request.item
														
 
															         list_item = DataBakItem()
														
 
															         for key in items:
														
 
															             list_item.__setitem__(key,items[key])
														
 
															+
														
 
															         html = ''
														
 
															-        # for xpath in request.deal_detail:
														
 
															-        #    html = response.xpath(xpath).extract_first()
														
 
															-        #    if html is not None:
														
 
															-        #        break
														
 
															+        for xpath in request.deal_detail:
														
 
															+            html = response.xpath(xpath).extract_first()  # 标书详细内容
														
 
															+            if request.is_join_html:
														
 
															+                if html is not None:
														
 
															+                    html += html
														
 
															+            else:
														
 
															+                if html is not None:
														
 
															+                    break
														
 
															+
														
 
															+        extra_html_info = request.extra_html
														
 
															+        if html and extra_html_info:
														
 
															+            for extra_item in extra_html_info:
														
 
															+                if re.search('^//.*', extra_item):
														
 
															+                    extra_html = response.xpath(extra_item).extract_first()
														
 
															+                else:
														
 
															+                    extra_html = extra_item
														
 
															+                html = html.replace(extra_html,'')
														
 
															         list_item.contenthtml = html
														
 
															-        # if request.files:
														
 
															-        #     files_info = request.files
														
 
															-        #     files =  response.xpath(files_info.get("xpath")).extract()
														
 
															-        #     for file_url in files:
														
 
															-        #         if files_info.get("host"):
														
 
															-        #             file_url = urljoin(files_info.get("host"), file_url)
														
 
															-        #         if file_url.split(".")[-1] in files.get("other_files"):
														
 
															-        #             continue
														
 
															+
														
 
															+        if request.files_info:      # 附件下载
														
 
															+            files_info = request.files_info
														
 
															+            files = response.xpath(files_info.get("list_xpath"))
														
 
															+            if len(files)>0:
														
 
															+                attachments = {}
														
 
															+                for info in files:
														
 
															+                    file_url = info.xpath(files_info.get("url_xpath")).extract_first()
														
 
															+                    file_name = info.xpath(files_info.get("name_xpath")).extract_first()
														
 
															+                    if not file_name:
														
 
															+                        file_name = info.xpath(files_info.get("name_xpath")).extract()
														
 
															+                    if file_name:
														
 
															+                        file_name = "".join("".join(file_name).split()).strip()
														
 
															+                        if files_info.get("host"):
														
 
															+                            file_url = urljoin(files_info.get("host"), file_url)
														
 
															+                        if not files_info.get("file_type"):
														
 
															+                            file_type = file_url.split("?")[0].split(".")[-1].lower()
														
 
															+                            if file_type not in files_info.get("files_type"):
														
 
															+                                file_type = file_name.split("?")[0].split(".")[-1].lower()
														
 
															+
														
 
															+                        if file_type in files_info.get("files_type") and files_info.get("url_key") in file_url:
														
 
															+                            attachment = AttachmentDownloader().fetch_attachment(
														
 
															+                                file_name=file_name,file_type=file_type,download_url=file_url,
														
 
															+                                enable_proxy=False)
														
 
															+                            attachments[str(len(attachments)+1)] = attachment
														
 
															+                if len(attachments)==0:
														
 
															+                    pass
														
 
															+                else:
														
 
															+                    list_item.projectinfo={"attachments":attachments}
														
 
															+
														
 
															         yield list_item
														
 
															+    def detail_json(self,request,response):
														
 
															+
														
 
															+        items = request.item
														
 
															+        list_item = DataBakItem()
														
 
															+        for key in items:
														
 
															+            list_item.__setitem__(key,items[key])
														
 
															+
														
 
															+        exec(request.deal_detail)
														
 
															+
														
 
															+        yield list_item
														
 
															+
														
 
															     def failed_request(self, request, response):
														
 
															         '''请求、解析次数超过上限后，将原信息重新保存至mongo，并修改failed字段'''
														
 
															+        if response is None:
														
 
															+            code = 0
														
 
															+        else:
														
 
															+            code = response.status_code
														
 
															+        err_dic = {"200":"analysis","400":"download","500":"servers","300":"download"}
														
 
															+        if 200<=code<300:
														
 
															+            err = 'analysis'
														
 
															+        elif 300<=code<400:
														
 
															+            err = 'download'
														
 
															+        elif 400<=code<500:
														
 
															+            err = 'download'
														
 
															+        elif 500<=code:
														
 
															+            err = "servers"
														
 
															+        else:
														
 
															+            err = "timeout"
														
 
															         mgp = MgpListItem()
														
 
															+        mgp.code=code
														
 
															+        mgp.error=err
														
 
															         items = request.base_info
														
 
															         for key in items:
														
 
															             mgp.__setitem__(key,items[key])
														
 
															         mgp.failed +=1
														
 
															-        print(f'......{mgp.failed}')
														
 
															+        if mgp.pri is None:
														
 
															+            mgp.pri = 0
														
 
															+
														
 
															         if mgp.pri > 5:
														
 
															             if mgp.failed in(10,30,50,100,200)or mgp.failed>200:
														
 
															                 if self.send_list.count(mgp.item.get("site")) == mgp.pri - 5:
														
@@ -96,10 +169,5 @@ class ${spider_name}(feapder.Spider):
 
															         yield mgp
														
 
															-    def end_callback(self):
														
 
															-        print("爬虫结束")
														
 
															-
														
 
															-
														
 
															-
														
 
															 if __name__ == "__main__":
														
 
															-    Details(redis_key="fwork:details1").start()
														
 
															+    Details(redis_key="{USER}:${spider_name}").start()
														
--- a/FworkSpider/feapder/templates/project_template/CHECK_DATA.md
+++ b/FworkSpider/feapder/templates/project_template/CHECK_DATA.md
@@ -9,80 +9,96 @@ Created on {DATE}
 
															 import sys
														
 
															 sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 import feapder
														
 
															-from items.spider_item import DataBakItem,MgpListItem,ListItem
														
 
															+from items.spider_item import DataBakItem,MgpListItem
														
 
															 from feapder.dedup import Dedup
														
 
															 from collections import namedtuple
														
 
															+
														
 
															 class ${spider_name}(feapder.Spider):
														
 
															     def start_callback(self):
														
 
															+
														
 
															+         self.site = ""
														
 
															+
														
 
															+         #               --- --- crawl_page 必须存在，且为纯数字(int) --- ---
														
 
															          Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
														
 
															          self.menus = [
														
 
															              Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "Notice", 1),
														
 
															+             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															          ]
														
 
															+
														
 
															+         self.headers = {}
														
 
															+
														
 
															     def start_requests(self):
														
 
															          for menu in self.menus:
														
 
															-             for page in range(1,menu.crawl_page+1):
														
 
															-                 start_url = f''
														
 
															-                 yield feapder.Request(url=start_url, item=menu._asdict(),proxies=False)
														
 
															+             start_url = ''
														
 
															+             yield feapder.Request(url=start_url,item=menu._asdict(),page=1,real_page=0,proxies=False)
														
 
															+
														
 
															     def parse(self, request, response):
														
 
															+        real_count = 0
														
 
															         menu = request.item
														
 
															         dedup = Dedup(Dedup.BloomFilter)
														
 
															-        href_list = []
														
 
															-        info_list = []
														
 
															+        info_list = response.xpath('')       # 数据结构为html
														
 
															         for info in info_list:
														
 
															-            href = ''
														
 
															-            title = ''
														
 
															-            create_time = ''
														
 
															+            href = info.xpath('').extract_first().strip()
														
 
															+            title = info.xpath('').extract_first().strip()
														
 
															+            publish_time = info.xpath('').extract_first().strip()
														
 
															-            data_item = DataBakItem()  # 存储数据的管道
														
 
															-            data_item.href = href  # 标书链接
														
 
															+            area = ""   # 省份
														
 
															+            city = ""   # 城市
														
 
															+
														
 
															+            data_item = DataBakItem()                # 存储数据的管道
														
 
															+            data_item.href = href                    # 标书链接
														
 
															             data_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
														
 
															             data_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
														
 
															-            data_item.title = title  # 标题
														
 
															-            data_item.publishtime = create_time  # 标书发布时间
														
 
															-            data_item.site = "*******记得编辑平台名称"
														
 
															-            data_item.area = "全国"  # 城市默认:全国
														
 
															-            data_item.city = ""  # 城市 默认为空
														
 
															-            ss = dedup.filter_exist_data([href])
														
 
															-            if ss == []:
														
 
															+            data_item.title = title                  # 标题
														
 
															+            data_item.publishtime = publish_time     # 标书发布时间
														
 
															+            data_item.site = self.site
														
 
															+            data_item.area = area or "全国"           # 省份 默认:全国
														
 
															+            data_item.city = city                    # 城市 默认 为空
														
 
															+
														
 
															+            undedup_data = dedup.filter_exist_data([href])    # 去重
														
 
															+            if undedup_data == []:
														
 
															                 continue
														
 
															+
														
 
															             list_item =  MgpListItem()
														
 
															-            list_item.parse = "self.detail_get"
														
 
															-            list_item.parser_name = "details"
														
 
															+            list_item.parse = "self.detail_get"      # 详情页回调方法
														
 
															+            list_item.parser_name = "details"        # 详情页标识 默认通用详情页
														
 
															             list_item.item = data_item.to_dict
														
 
															-            list_item.deal_detail = ['//div[@class="****"]',"*****"]
														
 
															+            list_item.deal_detail = ['//div[@class="****"]']   # 抽取正文xpath
														
 
															             list_item.proxies = False
														
 
															-            list_item.parse_url = href
														
 
															-            list_item.pri = 1
														
 
															-            list.files={
														
 
															-                "list_xpath":'//div[@class="notice-foot"]/a',
														
 
															+            list_item.parse_url = href               # 详情页请求地址
														
 
															+            list_item.pri = 1                        # 执行等级
														
 
															+
														
 
															+            list_item.files={                        # 附件采集规则
														
 
															+                "list_xpath":'//div[@class="***"]//a[@href]',
														
 
															                 "url_xpath":'./@href',
														
 
															                 "name_xpath":'./text()',
														
 
															-                "files_type":('zip','doxc','ftp'),
														
 
															-                "file_type":'zip',
														
 
															-                "url_key":'attachmentDownload',
														
 
															-                # "host":'http',
														
 
															-                "kwargs":{"headers": {
														
 
															-                    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
														
 
															-                }}
														
 
															-            href_list.append(href)
														
 
															+                "files_type":('zip','docx','ftp','pdf','doc','rar','gzzb',
														
 
															+                              'jpg','png','zbid','xls','xlsx','swp','dwg'), # 需要下载的附件类型
														
 
															+                #"file_type":'pdf',                  # 默认的附件类型，用于url中未带附件类型的
														
 
															+                "url_key":'http',                    # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
														
 
															+                "host":'',                           # 需要拼接url的host
														
 
															+            }
														
 
															+
														
 
															+            dedup.add(href)
														
 
															             yield list_item
														
 
															-        list = ListItem()
														
 
															-        list.site = self.site
														
 
															-        list.channel = menu.get("channel")
														
 
															-        list.spidercode = menu.get("code")
														
 
															-        list.url = request.url
														
 
															-        list.count = len(info_list)
														
 
															-        list.rel_count = len(href_list)
														
 
															-        dedup.add(href_list)
														
 
															-
														
 
															-    def end_callback(self):
														
 
															-        print("爬虫结束")
														
 
															+            real_count += 1
														
 
															+
														
 
															+
														
 
															+
														
 
															+        # 无限翻页
														
 
															+
														
 
															+        request = self.infinite_pages(request,response)
														
 
															+        yield request
														
 
															+
														
 
															+    def download_midware(self, request):
														
 
															+        page = request.page
														
 
															+        request.headers = self.headers
														
 
															+
														
 
															 if __name__ == "__main__":
														
 
															     ${spider_name}(redis_key="{USER}:${spider_name}").start()
														
--- a/FworkSpider/feapder/utils/__init__.py
+++ b/FworkSpider/feapder/utils/__init__.py
@@ -1,177 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""
														
 
															-Created on 2021/3/18 12:39 上午
														
 
															----------
														
 
															-@summary:  阿里云附件上传
														
 
															----------
														
 
															-@author: Boris
														
 
															-@email: boris_liu@foxmail.com
														
 
															-"""
														
 
															-import hashlib
														
 
															-import os
														
 
															-import traceback
														
 
															-import oss2
														
 
															-import requests
														
 
															-from feapder import setting
														
 
															-import time
														
 
															-
														
 
															-class UploadOSS:
														
 
															-    """阿里云 oss"""
														
 
															-
														
 
															-    def __init__(self):
														
 
															-        oss_conf = setting.oss_
														
 
															-        self.file_path: str = ""
														
 
															-        self.file_stream: bytes = b''
														
 
															-        self.__acc_key_id = oss_conf['key_id']
														
 
															-        self.__acc_key_secret = oss_conf['key_secret']
														
 
															-        self.__endpoint = oss_conf['endpoint']
														
 
															-        self.__bucket_name = oss_conf['bucket_name']
														
 
															-
														
 
															-    @property
														
 
															-    def fid(self):
														
 
															-        """
														
 
															-        文本摘要值
														
 
															-
														
 
															-        @return: 十六进制摘要值
														
 
															-        """
														
 
															-        sha1 = hashlib.sha1()
														
 
															-        sha1.update(str(self.file_stream).encode("utf-8"))
														
 
															-        return sha1.hexdigest()
														
 
															-
														
 
															-    @property
														
 
															-    def file_size(self):
														
 
															-        """
														
 
															-        文件的大小,将字节(bytes)转化(kb/M/G单位)
														
 
															-
														
 
															-        @return: 文件大小
														
 
															-        """
														
 
															-        try:
														
 
															-            size = os.path.getsize(self.file_path)
														
 
															-        except Exception:
														
 
															-            traceback.print_exc()
														
 
															-        else:
														
 
															-            try:
														
 
															-                _kb = float(size) / 1024
														
 
															-            except:
														
 
															-                return "Error"
														
 
															-            else:
														
 
															-                if _kb >= 1024:
														
 
															-                    _M = _kb / 1024
														
 
															-                    if _M >= 1024:
														
 
															-                        _G = _M / 1024
														
 
															-                        return "{:.1f} G".format(_G)
														
 
															-                    else:
														
 
															-                        return "{:.1f} M".format(_M)
														
 
															-                else:
														
 
															-                    return "{:.1f} kb".format(_kb)
														
 
															-
														
 
															-    def get_state(self, attachment,count=0, **kwargs):
														
 
															-        """
														
 
															-        下载附件并上传阿里oss
														
 
															-
														
 
															-        @param attachment: 附件
														
 
															-        @return: 附件处理结果
														
 
															-        """
														
 
															-        request_params = {
														
 
															-            'headers': setting.headers,
														
 
															-            'timeout': 20,
														
 
															-            'stream': True,
														
 
															-            **kwargs
														
 
															-        }
														
 
															-        with requests.get(attachment["org_url"], **request_params) as req:
														
 
															-            if req.status_code == 200:
														
 
															-                self.file_stream = req.content
														
 
															-                # img_dir = "file"
														
 
															-                img_dir = f"file/{attachment['channel']}"
														
 
															-                # 文件夹不存在则创建文件夹
														
 
															-                if not os.path.exists(img_dir):
														
 
															-                    os.makedirs(img_dir, mode=0o777, exist_ok=True)
														
 
															-                # 打开目录,放入下载的附件
														
 
															-                filname = hashlib.md5(attachment["filename"].encode("utf-8"))
														
 
															-                filname = filname.hexdigest() #加密1次
														
 
															-                types = attachment["ftype"]
														
 
															-                self.file_path = "{}/{}".format(img_dir, filname+'.'+types)
														
 
															-                with open(self.file_path, 'wb') as f:
														
 
															-                    f.write(self.file_stream)
														
 
															-                # 上传附件
														
 
															-                self.put_oss_from_local()
														
 
															-                file_state = self.file_state(attachment)
														
 
															-                # 删除附件
														
 
															-                os.remove(self.file_path)
														
 
															-                # 返回附件上传处理信息
														
 
															-                return file_state
														
 
															-            else:
														
 
															-                if count<3:
														
 
															-                    self.post_state(attachment,count=count+1, **kwargs)
														
 
															-                else:
														
 
															-                    # attachment["ftype"] = str(attachment["filename"]).split(".")[1]
														
 
															-                    attachment["url"] = 'oss'
														
 
															-                    attachment["fid"] = self.fid + "." + attachment["ftype"]
														
 
															-                    attachment["size"] = '0kb'
														
 
															-                    attachment["false"] = True
														
 
															-                    return attachment
														
 
															-    def post_state(self, attachment,count=0, **kwargs):
														
 
															-        """
														
 
															-        下载附件并上传阿里oss
														
 
															-
														
 
															-        @param attachment: 附件
														
 
															-        @return: 附件处理结果
														
 
															-        """
														
 
															-        request_params = {
														
 
															-            'headers': setting.headers,
														
 
															-            'timeout': 20,
														
 
															-            'stream': True,
														
 
															-            **kwargs
														
 
															-        }
														
 
															-        with requests.post(attachment["org_url"], **request_params) as req:
														
 
															-            if req.status_code == 200:
														
 
															-                self.file_stream = req.content
														
 
															-                img_dir = f"file/{attachment['channel']}"
														
 
															-                # 文件夹不存在则创建文件夹
														
 
															-                if not os.path.exists(img_dir):
														
 
															-                    os.makedirs(img_dir, mode=0o777, exist_ok=True)
														
 
															-                # 打开目录,放入下载的附件
														
 
															-                filname = hashlib.md5(attachment["filename"].encode("utf-8"))
														
 
															-                filname = filname.hexdigest()  # 加密1次
														
 
															-                types = attachment["ftype"]
														
 
															-                self.file_path = "{}/{}".format(img_dir, filname + '.' + types)
														
 
															-
														
 
															-                with open(self.file_path, 'wb') as f:
														
 
															-                    f.write(self.file_stream)
														
 
															-                # 上传附件
														
 
															-                self.put_oss_from_local()
														
 
															-                file_state = self.file_state(attachment)
														
 
															-                # 删除附件
														
 
															-                # os.remove(self.file_path)
														
 
															-                # 返回附件上传处理信息
														
 
															-                return file_state
														
 
															-            else:
														
 
															-                if count<3:
														
 
															-                    self.post_state(attachment,count=count+1, **kwargs)
														
 
															-                else:
														
 
															-                    attachment["url"] = 'oss'
														
 
															-                    attachment["fid"] = self.fid + "." + attachment["ftype"]
														
 
															-                    attachment["size"] = '0kb'
														
 
															-                    attachment["false"] = True
														
 
															-                    return attachment
														
 
															-
														
 
															-    def put_oss_from_local(self):
														
 
															-        """上传一个本地文件到阿里OSS的普通文件"""
														
 
															-        auth = oss2.Auth(self.__acc_key_id, self.__acc_key_secret)
														
 
															-        bucket = oss2.Bucket(auth, self.__endpoint, self.__bucket_name)
														
 
															-        bucket.put_object_from_file(self.fid, self.file_path)
														
 
															-
														
 
															-    def file_state(self, attachment):
														
 
															-        """
														
 
															-        文件信息
														
 
															-
														
 
															-        @param attachment: 附件
														
 
															-        @return: 附件上传处理信息
														
 
															-        """
														
 
															-        # attachment["ftype"] = str(attachment["filename"]).split(".")[1]
														
 
															-        attachment["url"] = 'oss'
														
 
															-        attachment["fid"] = self.fid + "." + attachment["ftype"]
														
 
															-        attachment["size"] = self.file_size
														
 
															-        return attachment
														
 
															-
														
 
															-
														
--- a/FworkSpider/feapder/utils/custom_argparse.py
+++ b/FworkSpider/feapder/utils/custom_argparse.py
@@ -2,7 +2,7 @@
 
															 """
														
 
															 Created on 2020/2/19 12:57 PM
														
 
															 ---------
														
 
															-@summary: 邮件发送
														
 
															+@summary:
														
 
															 ---------
														
 
															 @author: Boris
														
 
															 @email: boris_liu@foxmail.com
														
--- a/FworkSpider/feapder/utils/js/stealth.min.js
+++ b/FworkSpider/feapder/utils/js/stealth.min.js
@@ -10,11 +10,10 @@ Created on 2018-12-08 16:50
 
															 import logging
														
 
															 import os
														
 
															 import sys
														
 
															-import time
														
 
															 from logging.handlers import BaseRotatingHandler
														
 
															+import logstash
														
 
															 import loguru
														
 
															-import pymongo
														
 
															 from better_exceptions import format_exception
														
 
															 import feapder.setting as setting
														
@@ -41,47 +40,46 @@ class RotatingFileHandler(BaseRotatingHandler):
 
															         self.max_bytes = max_bytes
														
 
															         self.backup_count = backup_count
														
 
															         self.placeholder = str(len(str(backup_count)))
														
 
															-        self._to_db = None
														
 
															-        self.filename = filename
														
 
															-
														
 
															-
														
 
															-    @property
														
 
															-    def to_db(self):
														
 
															-        if not self._to_db:
														
 
															-            self._to_db = pymongo.MongoClient(setting.MONGO_IP, setting.MONGO_PORT)
														
 
															-
														
 
															-        return self._to_db.pyspider
														
 
															+    def doRollover(self):
														
 
															+        if self.stream:
														
 
															+            self.stream.close()
														
 
															+            self.stream = None
														
 
															+        if self.backup_count > 0:
														
 
															+            for i in range(self.backup_count - 1, 0, -1):
														
 
															+                sfn = ("%0" + self.placeholder + "d.") % i  # '%2d.'%i -> 02
														
 
															+                sfn = sfn.join(self.baseFilename.split("."))
														
 
															+                # sfn = "%d_%s" % (i, self.baseFilename)
														
 
															+                # dfn = "%d_%s" % (i + 1, self.baseFilename)
														
 
															+                dfn = ("%0" + self.placeholder + "d.") % (i + 1)
														
 
															+                dfn = dfn.join(self.baseFilename.split("."))
														
 
															+                if os.path.exists(sfn):
														
 
															+                    # print "%s -> %s" % (sfn, dfn)
														
 
															+                    if os.path.exists(dfn):
														
 
															+                        os.remove(dfn)
														
 
															+                    os.rename(sfn, dfn)
														
 
															+            dfn = (("%0" + self.placeholder + "d.") % 1).join(
														
 
															+                self.baseFilename.split(".")
														
 
															+            )
														
 
															+            if os.path.exists(dfn):
														
 
															+                os.remove(dfn)
														
 
															+            # Issue 18940: A file may not have been created if delay is True.
														
 
															+            if os.path.exists(self.baseFilename):
														
 
															+                os.rename(self.baseFilename, dfn)
														
 
															+        if not self.delay:
														
 
															+            self.stream = self._open()
														
 
															     def shouldRollover(self, record):
														
 
															-        parmars = {
														
 
															-            "spider_name":record.name,
														
 
															-            "msg":record.msg,
														
 
															-            "Message":str(record.getMessage)
														
 
															-        }
														
 
															-        if record.levelname == "ERROR":
														
 
															-            crawl_type = 'list'
														
 
															-            if 'detail' in record.name:
														
 
															-                crawl_type = 'detail'
														
 
															-            url = ''
														
 
															-            item={
														
 
															-                "recordname":record.name,
														
 
															-                "spidercode":"spidercode",
														
 
															-                "author":self.filename,
														
 
															-                "account":"",
														
 
															-                "crawl_time":time.time(),
														
 
															-                "crawl_type": crawl_type,
														
 
															-                "status_code":"status_code",
														
 
															-                "url":url,
														
 
															-                "reason":record.msg,
														
 
															-                'parmars': parmars,
														
 
															-            }
														
 
															-
														
 
															-            # print('<<<<<<<<<<<<<<<<<<<<<<<插入error_info')
														
 
															-            # print(item)
														
 
															-            # print(self.to_db.error_info)
														
 
															-            # self.to_db.error_info.insert_one(item)
														
 
															+        if self.stream is None:  # delay was set...
														
 
															+            self.stream = self._open()
														
 
															+        if self.max_bytes > 0:  # are we rolling over?
														
 
															+            # print('record >>>> ', record)
														
 
															+            msg = "%s\n" % self.format(record)
														
 
															+            self.stream.seek(0, 2)  # due to non-posix-compliant Windows feature
														
 
															+            if self.stream.tell() + len(msg) >= self.max_bytes:
														
 
															+                return 1
														
 
															+        return 0
														
 
															 def get_logger(
														
@@ -90,6 +88,7 @@ def get_logger(
 
															     log_level=None,
														
 
															     is_write_to_console=None,
														
 
															     is_write_to_file=None,
														
 
															+    is_send_to_logstash = None,
														
 
															     color=None,
														
 
															     mode=None,
														
 
															     max_bytes=None,
														
@@ -113,6 +112,7 @@ def get_logger(
 
															     @result:
														
 
															     """
														
 
															     # 加载setting里最新的值
														
 
															+    # name = os.path.split(os.getcwd())[-1]
														
 
															     name = name or setting.LOG_NAME
														
 
															     path = path or setting.LOG_PATH
														
 
															     log_level = log_level or setting.LOG_LEVEL
														
@@ -126,6 +126,13 @@ def get_logger(
 
															         if is_write_to_file is not None
														
 
															         else setting.LOG_IS_WRITE_TO_FILE
														
 
															     )
														
 
															+
														
 
															+    is_send_to_logstash = (
														
 
															+        is_send_to_logstash
														
 
															+        if is_send_to_logstash is not None
														
 
															+        else setting.LOG_IS_SEND_TO_LOGSTASH
														
 
															+    )
														
 
															+
														
 
															     color = color if color is not None else setting.LOG_COLOR
														
 
															     mode = mode or setting.LOG_MODE
														
 
															     max_bytes = max_bytes or setting.LOG_MAX_BYTES
														
@@ -144,8 +151,8 @@ def get_logger(
 
															     # 定义一个RotatingFileHandler，最多备份5个日志文件，每个日志文件最大10M
														
 
															     if is_write_to_file:
														
 
															-        # if path and not os.path.exists(os.path.dirname(path)):
														
 
															-        #     os.makedirs(os.path.dirname(path))
														
 
															+        if path and not os.path.exists(os.path.dirname(path)):
														
 
															+            os.makedirs(os.path.dirname(path))
														
 
															         rf_handler = RotatingFileHandler(
														
 
															             path,
														
@@ -156,11 +163,16 @@ def get_logger(
 
															         )
														
 
															         rf_handler.setFormatter(formatter)
														
 
															         logger.addHandler(rf_handler)
														
 
															+
														
 
															+    if is_send_to_logstash:
														
 
															+        logger.addHandler(logstash.TCPLogstashHandler(setting.LOGSTASH_IP, setting.LOGSTASH_PORT, version=1))
														
 
															+
														
 
															     if color and is_write_to_console:
														
 
															         loguru_handler = InterceptHandler()
														
 
															         loguru_handler.setFormatter(formatter)
														
 
															         # logging.basicConfig(handlers=[loguru_handler], level=0)
														
 
															         logger.addHandler(loguru_handler)
														
 
															+
														
 
															     elif is_write_to_console:
														
 
															         stream_handler = logging.StreamHandler()
														
 
															         stream_handler.stream = sys.stdout
														
--- a/FworkSpider/feapder/utils/metrics.py
+++ b/FworkSpider/feapder/utils/metrics.py
@@ -17,13 +17,16 @@ from feapder.utils.log import log
 
															 class RedisLock:
														
 
															     redis_cli = None
														
 
															-    def __init__(self, key, redis_cli=None, wait_timeout=0, lock_timeout=86400):
														
 
															+    def __init__(
														
 
															+        self, key, *, wait_timeout=0, lock_timeout=86400, redis_cli=None, redis_url=None
														
 
															+    ):
														
 
															         """
														
 
															         redis超时锁
														
 
															         :param key: 存储锁的key redis_lock:[key]
														
 
															-        :param redis_cli: redis客户端对象
														
 
															         :param wait_timeout: 等待加锁超时时间，为0时则不等待加锁，加锁失败
														
 
															         :param lock_timeout: 锁超时时间 为0时则不会超时，直到锁释放或意外退出，默认超时为1天
														
 
															+        :param redis_cli: redis客户端对象
														
 
															+        :param redis_url: redis连接地址，若redis_cli传值，则不使用redis_url
														
 
															         用法示例:
														
 
															         with RedisLock(key="test") as _lock:
														
@@ -32,6 +35,7 @@ class RedisLock:
 
															                 # do somethings
														
 
															         """
														
 
															         self.redis_conn = redis_cli
														
 
															+        self.redis_url = redis_url
														
 
															         self.lock_key = "redis_lock:{}".format(key)
														
 
															         # 锁超时时间
														
 
															         self.lock_timeout = lock_timeout
														
@@ -43,21 +47,23 @@ class RedisLock:
 
															     @property
														
 
															     def redis_conn(self):
														
 
															         if not self.__class__.redis_cli:
														
 
															-            self.__class__.redis_cli = RedisDB().get_redis_obj()
														
 
															+            self.__class__.redis_cli = RedisDB(url=self.redis_url).get_redis_obj()
														
 
															         return self.__class__.redis_cli
														
 
															     @redis_conn.setter
														
 
															     def redis_conn(self, cli):
														
 
															-        self.__class__.redis_cli = cli
														
 
															+        if cli:
														
 
															+            self.__class__.redis_cli = cli
														
 
															     def __enter__(self):
														
 
															         if not self.locked:
														
 
															             self.acquire()
														
 
															-            # 延长锁的时间
														
 
															-            thread = threading.Thread(target=self.prolong_life)
														
 
															-            thread.setDaemon(True)
														
 
															-            thread.start()
														
 
															+            if self.locked:
														
 
															+                # 延长锁的时间
														
 
															+                thread = threading.Thread(target=self.prolong_life)
														
 
															+                thread.setDaemon(True)
														
 
															+                thread.start()
														
 
															         return self
														
 
															     def __exit__(self, exc_type, exc_val, exc_tb):
														
--- a/FworkSpider/feapder/utils/tools.py
+++ b/FworkSpider/feapder/utils/tools.py
@@ -7,6 +7,7 @@ Created on 2018-09-06 14:21
 
															 @author: Boris
														
 
															 @email: boris_liu@foxmail.com
														
 
															 """
														
 
															+
														
 
															 import asyncio
														
 
															 import calendar
														
 
															 import codecs
														
@@ -37,6 +38,7 @@ from pprint import pprint
 
															 from urllib import request
														
 
															 from urllib.parse import urljoin
														
 
															+import bson
														
 
															 import execjs  # pip install PyExecJS
														
 
															 import redis
														
 
															 import requests
														
@@ -45,8 +47,10 @@ from requests.cookies import RequestsCookieJar
 
															 from w3lib.url import canonicalize_url as _canonicalize_url
														
 
															 import feapder.setting as setting
														
 
															+from feapder.db.redisdb import RedisDB
														
 
															 from feapder.utils.email_sender import EmailSender
														
 
															 from feapder.utils.log import log
														
 
															+
														
 
															 os.environ["EXECJS_RUNTIME"] = "Node"  # 设置使用node执行js
														
 
															 # 全局取消ssl证书验证
														
@@ -61,18 +65,11 @@ redisdb = None
 
															 def get_redisdb():
														
 
															     global redisdb
														
 
															     if not redisdb:
														
 
															-        ip, port = setting.REDISDB_IP_PORTS.split(":")
														
 
															-        redisdb = redis.Redis(
														
 
															-            host=ip,
														
 
															-            port=port,
														
 
															-            db=setting.REDISDB_DB,
														
 
															-            password=setting.REDISDB_USER_PASS,
														
 
															-            decode_responses=True,
														
 
															-        )  # redis默认端口是6379
														
 
															+        redisdb = RedisDB()
														
 
															     return redisdb
														
 
															-# 装饰器 -- 单例模式
														
 
															+# 装饰器
														
 
															 class Singleton(object):
														
 
															     def __init__(self, cls):
														
 
															         self._cls = cls
														
@@ -598,20 +595,8 @@ def get_form_data(form):
 
															     return data
														
 
															-# mac上不好使
														
 
															-# def get_domain(url):
														
 
															-#     domain = ''
														
 
															-#     try:
														
 
															-#         domain = get_tld(url)
														
 
															-#     except Exception as e:
														
 
															-#         log.debug(e)
														
 
															-#     return domain
														
 
															-
														
 
															-
														
 
															 def get_domain(url):
														
 
															-    proto, rest = urllib.parse.splittype(url)
														
 
															-    domain, rest = urllib.parse.splithost(rest)
														
 
															-    return domain
														
 
															+    return urllib.parse.urlparse(url).netloc
														
 
															 def get_index_url(url):
														
@@ -823,27 +808,31 @@ def jsonp2json(jsonp):
 
															         raise ValueError("Invalid Input")
														
 
															-def dumps_json(json_, indent=4, sort_keys=False):
														
 
															+def dumps_json(data, indent=4, sort_keys=False):
														
 
															     """
														
 
															     @summary: 格式化json 用于打印
														
 
															     ---------
														
 
															-    @param json_: json格式的字符串或json对象
														
 
															+    @param data: json格式的字符串或json对象
														
 
															     ---------
														
 
															     @result: 格式化后的字符串
														
 
															     """
														
 
															     try:
														
 
															-        if isinstance(json_, str):
														
 
															-            json_ = get_json(json_)
														
 
															-
														
 
															-        json_ = json.dumps(
														
 
															-            json_, ensure_ascii=False, indent=indent, skipkeys=True, sort_keys=sort_keys
														
 
															+        if isinstance(data, str):
														
 
															+            data = get_json(data)
														
 
															+
														
 
															+        data = json.dumps(
														
 
															+            data,
														
 
															+            ensure_ascii=False,
														
 
															+            indent=indent,
														
 
															+            skipkeys=True,
														
 
															+            sort_keys=sort_keys,
														
 
															+            default=str,
														
 
															         )
														
 
															     except Exception as e:
														
 
															-        log.error(e)
														
 
															-        json_ = pformat(json_)
														
 
															+        data = pformat(data)
														
 
															-    return json_
														
 
															+    return data
														
 
															 def get_json_value(json_object, key):
														
@@ -2552,3 +2541,19 @@ def ensure_float(n):
 
															     if not n:
														
 
															         return 0.0
														
 
															     return float(n)
														
 
															+
														
 
															+
														
 
															+def ensure_int64(n):
														
 
															+    """
														
 
															+    >>> ensure_int64(None)
														
 
															+    0
														
 
															+    >>> ensure_float(False)
														
 
															+    0
														
 
															+    >>> ensure_float(12)
														
 
															+    12
														
 
															+    >>> ensure_float("72")
														
 
															+    72
														
 
															+    """
														
 
															+    if not n:
														
 
															+        return bson.int64.Int64(0)
														
 
															+    return bson.int64.Int64(n)
														
--- a/FworkSpider/feapder/utils/webdriver.py
+++ b/FworkSpider/feapder/utils/webdriver.py
@@ -1,20 +1,23 @@
 
															 # -*- coding: utf-8 -*-
														
 
															 """
														
 
															-Created on 2021/3/18 4:59 下午
														
 
															+Created on 2023-03-01
														
 
															 ---------
														
 
															-@summary:
														
 
															+@summary: 远程selenium服务
														
 
															 ---------
														
 
															-@author: Boris
														
 
															-@email: boris_liu@foxmail.com
														
 
															+@author: dzr
														
 
															+@email: dongzhaorui@topnet.net.cn
														
 
															 """
														
 
															+import os
														
 
															 import queue
														
 
															 import threading
														
 
															-import os
														
 
															+
														
 
															 from selenium import webdriver
														
 
															-from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
														
 
															+from selenium.webdriver.chrome.remote_connection import ChromeRemoteConnection
														
 
															+from selenium.webdriver.firefox.remote_connection import FirefoxRemoteConnection
														
 
															 from selenium.webdriver.remote.webdriver import WebDriver as RemoteWebDriver
														
 
															+from feapder.setting import WEBDRIVER
														
 
															 from feapder.utils.log import log
														
 
															 from feapder.utils.tools import Singleton
														
@@ -22,9 +25,8 @@ DEFAULT_USERAGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit
 
															 class WebDriver(RemoteWebDriver):
														
 
															-    '''浏览器采集 - selenium'''
														
 
															+    """浏览器采集 - selenium"""
														
 
															     CHROME = "CHROME"
														
 
															-    PHANTOMJS = "PHANTOMJS"
														
 
															     FIREFOX = "FIREFOX"
														
 
															     def __init__(
														
@@ -32,25 +34,33 @@ class WebDriver(RemoteWebDriver):
 
															         load_images=True,
														
 
															         user_agent=None,
														
 
															         proxy=None,
														
 
															-        headless=False,
														
 
															-        driver_type=CHROME,
														
 
															-        timeout=16,
														
 
															+        driver_type=FIREFOX,
														
 
															+        timeout=10,
														
 
															         window_size=(1024, 800),
														
 
															-        executable_path=None,
														
 
															+        server_addr=None,
														
 
															         custom_argument=None,
														
 
															+        version=None,
														
 
															+        usages_local_driver=True,
														
 
															+        headless=False,
														
 
															+        executable_path=None,
														
 
															+        service_log_path=None,
														
 
															         **kwargs
														
 
															     ):
														
 
															         """
														
 
															-        webdirver 封装，支持chrome、phantomjs 和 firefox
														
 
															+        webdirver 封装，支持 chrome 和 firefox
														
 
															         Args:
														
 
															             load_images: 是否加载图片
														
 
															             user_agent: 字符串 或 无参函数，返回值为user_agent
														
 
															             proxy: xxx.xxx.xxx.xxx:xxxx 或 无参函数，返回值为代理地址
														
 
															             headless: 是否启用无头模式
														
 
															-            driver_type: CHROME 或 PHANTOMJS,FIREFOX
														
 
															+            driver_type: CHROME 或 FIREFOX...
														
 
															             timeout: 请求超时时间
														
 
															             window_size: # 窗口大小
														
 
															             executable_path: 浏览器路径，默认为默认路径
														
 
															+            server_addr: 远程服务地址
														
 
															+            usages_local_driver: 使用本地驱动
														
 
															+            service_log_path: selenium service 日志路径
														
 
															+            version: 浏览器版本
														
 
															             **kwargs:
														
 
															         """
														
 
															         self._load_images = load_images
														
@@ -59,18 +69,16 @@ class WebDriver(RemoteWebDriver):
 
															         self._headless = headless
														
 
															         self._timeout = timeout
														
 
															         self._window_size = window_size
														
 
															-        self._executable_path = executable_path
														
 
															+        self._server_addr = server_addr or WEBDRIVER["server_addr"]
														
 
															         self._custom_argument = custom_argument
														
 
															-
														
 
															-        self.proxies = {}
														
 
															-        self.user_agent = None
														
 
															+        self._version = version or WEBDRIVER["version"]
														
 
															+        self._executable_path = executable_path
														
 
															+        self._usages_local_driver = usages_local_driver
														
 
															+        self._service_log_path = service_log_path
														
 
															         if driver_type == WebDriver.CHROME:
														
 
															             self.driver = self.chrome_driver()
														
 
															-        elif driver_type == WebDriver.PHANTOMJS:
														
 
															-            self.driver = self.phantomjs_driver()
														
 
															-
														
 
															         elif driver_type == WebDriver.FIREFOX:
														
 
															             self.driver = self.firefox_driver()
														
@@ -93,30 +101,30 @@ class WebDriver(RemoteWebDriver):
 
															         if exc_val:
														
 
															             log.error(exc_val)
														
 
															-        self.quit()
														
 
															-        return True
														
 
															+        self.get_driver().quit()
														
 
															+        return False
														
 
															     def get_driver(self):
														
 
															         return self.driver
														
 
															-    def firefox_driver(self):
														
 
															+    def local_firefox_driver(self):
														
 
															         firefox_profile = webdriver.FirefoxProfile()
														
 
															         firefox_options = webdriver.FirefoxOptions()
														
 
															         firefox_capabilities = webdriver.DesiredCapabilities.FIREFOX
														
 
															-        firefox_profile.set_preference("dom.webdriver.enabled",False)
														
 
															+        firefox_profile.set_preference("dom.webdriver.enabled", False)
														
 
															         if self._proxy:
														
 
															             proxy = self._proxy() if callable(self._proxy) else self._proxy
														
 
															-            proxy = proxy.replace("socks5://","")
														
 
															+            proxy = proxy.replace("socks5://", "")
														
 
															             # 使用socks5 代理
														
 
															             firefox_profile.set_preference('network.proxy.type', 1)  # 不使用代理：0, 使用代理：1
														
 
															             firefox_profile.set_preference('network.proxy.socks', proxy.split(":")[0])
														
 
															             firefox_profile.set_preference('network.proxy.socks_port', int(proxy.split(":")[-1]))
														
 
															-            # firefox_capabilities["marionette"] = True  # http代理的使用
														
 
															         if self._user_agent:
														
 
															             firefox_profile.set_preference(
														
 
															                 "general.useragent.override",
														
 
															-                self._user_agent() if callable(self._user_agent) else self._user_agent,
														
 
															+                self._user_agent() if callable(
														
 
															+                    self._user_agent) else self._user_agent,
														
 
															             )
														
 
															         if not self._load_images:
														
@@ -137,12 +145,14 @@ class WebDriver(RemoteWebDriver):
 
															                 options=firefox_options,
														
 
															                 firefox_profile=firefox_profile,
														
 
															                 executable_path=self._executable_path,
														
 
															+                service_log_path=self._service_log_path
														
 
															             )
														
 
															         else:
														
 
															             driver = webdriver.Firefox(
														
 
															                 capabilities=firefox_capabilities,
														
 
															                 options=firefox_options,
														
 
															                 firefox_profile=firefox_profile,
														
 
															+                service_log_path=self._service_log_path
														
 
															             )
														
 
															         if self._window_size:
														
@@ -150,20 +160,73 @@ class WebDriver(RemoteWebDriver):
 
															         return driver
														
 
															-    def chrome_driver(self):
														
 
															+    def remote_firefox_driver(self):
														
 
															+        firefox_capabilities = {
														
 
															+            "browserName": "firefox",
														
 
															+            "platform": "ANY",
														
 
															+            "version": self._version,
														
 
															+            "javascriptEnabled": True,
														
 
															+            "marionette": False,
														
 
															+        }
														
 
															+        firefox_options = webdriver.FirefoxOptions()
														
 
															+        firefox_options.add_argument("--disable-gpu")
														
 
															+        firefox_options.set_preference("dom.webdriver.enabled", False)
														
 
															+        if self._proxy:
														
 
															+            proxy = self._proxy() if callable(self._proxy) else self._proxy
														
 
															+            proxy = proxy.replace("socks5://", "")
														
 
															+            # 使用socks5 代理
														
 
															+            ip, port = proxy.split(":")
														
 
															+            firefox_options.set_preference('network.proxy.type', 1)  # 不使用代理：0, 使用代理：1
														
 
															+            firefox_options.set_preference('network.proxy.socks', ip)
														
 
															+            firefox_options.set_preference('network.proxy.socks_port', int(port))
														
 
															+            # firefox_capabilities["marionette"] = True  # http代理的使用
														
 
															+
														
 
															+        if self._user_agent:
														
 
															+            firefox_options.set_preference(
														
 
															+                "general.useragent.override",
														
 
															+                self._user_agent() if callable(self._user_agent) else self._user_agent,
														
 
															+            )
														
 
															+
														
 
															+        if not self._load_images:
														
 
															+            firefox_options.set_preference("permissions.default.image", 2)
														
 
															+
														
 
															+        if self._custom_argument:
														
 
															+            for arg in self._custom_argument:
														
 
															+                firefox_options.add_argument(arg)
														
 
															+
														
 
															+        executor = FirefoxRemoteConnection(remote_server_addr=self._server_addr)
														
 
															+        browser = webdriver.Remote(
														
 
															+            command_executor=executor,
														
 
															+            desired_capabilities=firefox_capabilities,
														
 
															+            options=firefox_options
														
 
															+        )
														
 
															+
														
 
															+        if self._window_size:
														
 
															+            browser.set_window_size(*self._window_size)
														
 
															+
														
 
															+        return browser
														
 
															+
														
 
															+    def firefox_driver(self):
														
 
															+        if self._usages_local_driver:
														
 
															+            return self.local_firefox_driver()
														
 
															+        return self.remote_firefox_driver()
														
 
															+
														
 
															+    def remote_chrome_driver(self):
														
 
															+        chrome_capabilities = {
														
 
															+            "browserName": "chrome",
														
 
															+            "platform": "ANY",
														
 
															+            "version": self._version,
														
 
															+            "javascriptEnabled": True,
														
 
															+        }
														
 
															         chrome_options = webdriver.ChromeOptions()
														
 
															+
														
 
															         # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
														
 
															         chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
														
 
															         chrome_options.add_experimental_option("useAutomationExtension", False)
														
 
															         # docker 里运行需要
														
 
															         chrome_options.add_argument("--no-sandbox")
														
 
															+        chrome_options.add_argument("--disable-gpu")
														
 
															-        if self._proxy:
														
 
															-            chrome_options.add_argument(
														
 
															-                "--proxy-server={}".format(
														
 
															-                    self._proxy() if callable(self._proxy) else self._proxy
														
 
															-                )
														
 
															-            )
														
 
															         if self._user_agent:
														
 
															             chrome_options.add_argument(
														
 
															                 "user-agent={}".format(
														
@@ -172,15 +235,19 @@ class WebDriver(RemoteWebDriver):
 
															                     else self._user_agent
														
 
															                 )
														
 
															             )
														
 
															+        # 不支持socks5协议
														
 
															+        # if self._proxy:
														
 
															+        #     chrome_options.add_argument(
														
 
															+        #         "--proxy-server={}".format(
														
 
															+        #             self._proxy() if callable(self._proxy) else self._proxy
														
 
															+        #         )
														
 
															+        #     )
														
 
															+
														
 
															         if not self._load_images:
														
 
															             chrome_options.add_experimental_option(
														
 
															                 "prefs", {"profile.managed_default_content_settings.images": 2}
														
 
															             )
														
 
															-        if self._headless:
														
 
															-            chrome_options.add_argument("--headless")
														
 
															-            chrome_options.add_argument("--disable-gpu")
														
 
															-
														
 
															         if self._window_size:
														
 
															             chrome_options.add_argument(
														
 
															                 "--window-size={},{}".format(self._window_size[0], self._window_size[1])
														
@@ -191,68 +258,95 @@ class WebDriver(RemoteWebDriver):
 
															             for arg in self._custom_argument:
														
 
															                 chrome_options.add_argument(arg)
														
 
															-        if self._executable_path:
														
 
															-            driver = webdriver.Chrome(
														
 
															-                chrome_options=chrome_options, executable_path=self._executable_path
														
 
															-            )
														
 
															-        else:
														
 
															-            driver = webdriver.Chrome(chrome_options=chrome_options)
														
 
															+        browser = webdriver.Remote(
														
 
															+            command_executor=ChromeRemoteConnection(
														
 
															+                remote_server_addr=self._server_addr,
														
 
															+                keep_alive=True),
														
 
															+            desired_capabilities=chrome_capabilities,
														
 
															+            options=chrome_options
														
 
															+        )
														
 
															         # 隐藏浏览器特征
														
 
															         with open(os.path.join(os.path.dirname(__file__), "./js/stealth.min.js")) as f:
														
 
															             js = f.read()
														
 
															-        driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": js})
														
 
															-
														
 
															-        return driver
														
 
															-
														
 
															-    def phantomjs_driver(self):
														
 
															-        import warnings
														
 
															+            params = {
														
 
															+                'cmd': 'Page.addScriptToEvaluateOnNewDocument',
														
 
															+                'params': {'source': js}
														
 
															+            }
														
 
															+            res = browser.execute("executeCdpCommand", params)['value']
														
 
															-        warnings.filterwarnings("ignore")
														
 
															+        return browser
														
 
															-        service_args = []
														
 
															-        dcap = DesiredCapabilities.PHANTOMJS
														
 
															+    def local_chrome_driver(self):
														
 
															+        chrome_options = webdriver.ChromeOptions()
														
 
															+        # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
														
 
															+        chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
														
 
															+        chrome_options.add_experimental_option("useAutomationExtension", False)
														
 
															+        # docker 里运行需要
														
 
															+        chrome_options.add_argument("--no-sandbox")
														
 
															         if self._proxy:
														
 
															-            service_args.append(
														
 
															-                "--proxy=%s" % self._proxy() if callable(self._proxy) else self._proxy
														
 
															+            chrome_options.add_argument(
														
 
															+                "--proxy-server={}".format(
														
 
															+                    self._proxy() if callable(self._proxy) else self._proxy
														
 
															+                )
														
 
															             )
														
 
															         if self._user_agent:
														
 
															-            dcap["phantomjs.page.settings.userAgent"] = (
														
 
															-                self._user_agent() if callable(self._user_agent) else self._user_agent
														
 
															+            chrome_options.add_argument(
														
 
															+                "user-agent={}".format(
														
 
															+                    self._user_agent()
														
 
															+                    if callable(self._user_agent)
														
 
															+                    else self._user_agent
														
 
															+                )
														
 
															             )
														
 
															         if not self._load_images:
														
 
															-            service_args.append("--load-images=no")
														
 
															+            chrome_options.add_experimental_option(
														
 
															+                "prefs", {"profile.managed_default_content_settings.images": 2}
														
 
															+            )
														
 
															+
														
 
															+        if self._headless:
														
 
															+            chrome_options.add_argument("--headless")
														
 
															+            chrome_options.add_argument("--disable-gpu")
														
 
															+
														
 
															+        if self._window_size:
														
 
															+            chrome_options.add_argument(
														
 
															+                "--window-size={},{}".format(self._window_size[0], self._window_size[1])
														
 
															+            )
														
 
															         # 添加自定义的配置参数
														
 
															         if self._custom_argument:
														
 
															             for arg in self._custom_argument:
														
 
															-                service_args.append(arg)
														
 
															+                chrome_options.add_argument(arg)
														
 
															         if self._executable_path:
														
 
															-            driver = webdriver.PhantomJS(
														
 
															-                service_args=service_args,
														
 
															-                desired_capabilities=dcap,
														
 
															+            driver = webdriver.Chrome(
														
 
															+                chrome_options=chrome_options,
														
 
															                 executable_path=self._executable_path,
														
 
															+                service_log_path=self._service_log_path
														
 
															             )
														
 
															         else:
														
 
															-            driver = webdriver.PhantomJS(
														
 
															-                service_args=service_args, desired_capabilities=dcap
														
 
															+            driver = webdriver.Chrome(
														
 
															+                chrome_options=chrome_options,
														
 
															+                service_log_path=self._service_log_path
														
 
															             )
														
 
															-        if self._window_size:
														
 
															-            driver.set_window_size(self._window_size[0], self._window_size[1])
														
 
															-
														
 
															-        del warnings
														
 
															+        # 隐藏浏览器特征
														
 
															+        with open(os.path.join(os.path.dirname(__file__), "./js/stealth.min.js")) as f:
														
 
															+            js = f.read()
														
 
															+        driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": js})
														
 
															         return driver
														
 
															+    def chrome_driver(self):
														
 
															+        if self._usages_local_driver:
														
 
															+            return self.local_chrome_driver()
														
 
															+        return self.remote_chrome_driver()
														
 
															+
														
 
															     @property
														
 
															     def cookies(self):
														
 
															         cookies_json = {}
														
 
															         for cookie in self.driver.get_cookies():
														
 
															             cookies_json[cookie["name"]] = cookie["value"]
														
 
															-
														
 
															         return cookies_json
														
 
															     @cookies.setter
														
@@ -274,8 +368,9 @@ class WebDriver(RemoteWebDriver):
 
															         else:
														
 
															             raise AttributeError
														
 
															-    def __del__(self):
														
 
															-        self.quit()
														
 
															+    # def __del__(self):
														
 
															+    #     if self.driver:
														
 
															+    #         self.driver.quit()
														
 
															 @Singleton
														
--- a/FworkSpider/items/__init__.py
+++ b/FworkSpider/items/__init__.py
@@ -1,27 +1,37 @@
 
															-from feapder import Item
														
 
															-from untils.tools import int2long,substitute,text_search,CheckPrePareRequest
														
 
															-import time
														
 
															+import feapder.utils.tools as tools
														
 
															 from feapder.utils.log import log
														
 
															-global xxc
														
 
															-xxc = 0
														
 
															-class DataNjpcItem(Item):
														
 
															+from items.base_item import SwordFishProjectItem
														
 
															+from untils.check_data import CheckData
														
 
															+from untils.tools import int2long, substitute, text_search
														
 
															+
														
 
															+
														
 
															+class DataNjpcItem(SwordFishProjectItem):
														
 
															+    """拟建数据"""
														
 
															     def __init__(self):
														
 
															-        # 一类字段
														
 
															-        self.href = ""  # 非竞品快照页地址
														
 
															-        self.projectname = ""  # 项目名称
														
 
															-        self.publishtime = ""  # 文章发布时间（日期格式 xxxx-xx-xx）
														
 
															-        self.detail = ""  # 快照页源码清洗之后招投标文本
														
 
															-        self.contentlhtml = ""  # 快照页源码
														
 
															+        super(DataNjpcItem, self).__init__()
														
 
															+
														
 
															+        self.table_name = "data_bak"  # 拟建数据存储表名
														
 
															+
														
 
															         self.spidercode = ""  # 爬虫代码（编辑器爬虫平台定义）
														
 
															         self.site = ""  # 采集的站点（编辑器爬虫平台定义）
														
 
															         self.channel = ""  # 采集的版块（编辑器爬虫平台定义）
														
 
															+
														
 
															+        # 一类字段
														
 
															+        self.href = ""  # 非竞品详情页地址
														
 
															+        self.title = ""  # 标题
														
 
															+        self.projectname = ""  # 项目名称
														
 
															+        self.publishtime = ""  # 文章发布时间（时间戳），单位:秒
														
 
															         self.area = "全国"  # 省
														
 
															         self.city = ""  # 市
														
 
															-        self.district = ""  # 区县
														
 
															+        self.district = ""  # 区/县
														
 
															+        self.contenthtml = ""  # 详情页源码
														
 
															+        self.detail = ""  # 详情页源码清洗之后的文本
														
 
															+        self.projectinfo = None  # 附件信息,详见剑鱼拟建规范
														
 
															-        # 辅助字段 存储时的辅助字段
														
 
															-        self.save = True  # 区县
														
 
															-        self.sendflag = False
														
 
															+        # 默认设置
														
 
															+        self.sendflag = "false"
														
 
															+        self.T = "bidding"
														
 
															+        self.infoformat = 2
														
 
															         # 以下字段为 二类字段，没有则不做存储，不在存储结构中
														
 
															         # 附件，默认为Null 正确的格式为 projectinfo.attachments = [{
														
@@ -79,60 +89,68 @@ class DataNjpcItem(Item):
 
															         # 施工单位联系人	constructionunitperson
														
 
															         # 施工单位联系方式	constructionunittel
														
 
															         # 施工单位地址	constructionunitaddr
														
 
															+
														
 
															     def pre_to_db(self):
														
 
															-        # 生成入库时间戳（秒级）, 定义为long型
														
 
															-        self.comeintime = int2long(time.time())
														
 
															-        # 根据文章发布时间 生成发布时间的时间戳（秒级）, 定义为long型
														
 
															-        '''
														
 
															-        如果无法解析到发布时间、可以考虑补一个发布时间
														
 
															-        '''
														
 
															-        # if "-" in self.publishtime:
														
 
															-        #     self.publishtime = int2long(int(time.mktime(time.strptime(self.publishtime, "%Y-%m-%d %H:%M:%S"))))
														
 
															-        # else:
														
 
															-        #     self.publishtime = int2long(int(time.mktime(time.strptime(self.publishtime, "%Y-%m-%d"))))
														
 
															+        if not self.title:
														
 
															+            self.title = self.projectname
														
 
															+            log.debug("请检测 < title > 是否正确！")
														
 
															+
														
 
															+        self.comeintime = int2long(tools.get_current_timestamp())  # 生成入库时间戳（秒级）
														
 
															         if "-" in str(self.publishtime) and ":" in str(self.publishtime):
														
 
															-            self.publishtime = int2long(int(time.mktime(time.strptime(self.publishtime, "%Y-%m-%d %H:%M:%S"))))
														
 
															+            self.publishtime = int2long(tools.date_to_timestamp(self.publishtime))
														
 
															         elif "-" in str(self.publishtime) and ":" not in str(self.publishtime):
														
 
															-            self.publishtime = int2long(int(time.mktime(time.strptime(self.publishtime, "%Y-%m-%d"))))
														
 
															-        elif len(str(self.publishtime)) == 10 or len(str(self.publishtime)) == 13:
														
 
															+            self.publishtime = int2long(tools.date_to_timestamp(self.publishtime, "%Y-%m-%d"))
														
 
															+        elif len(str(self.publishtime)) == 10 or len(str(self.publishtime)) == 13: # 或许是时间戳
														
 
															             self.publishtime = int2long(int(str(self.publishtime)[:10]))
														
 
															         else:
														
 
															-            raise ValueError("The publication time format is incorrect -> %r " %(self.publishtime))
														
 
															+            raise ValueError("发布时间格式不正确 -> %r " %(self.publishtime))
														
 
															-        # 数据获取失败处理：输出错误日志
														
 
															         if not self.projectname or not self.publishtime or not self.href:
														
 
															-            log.error(f"部分数据抓取失败，数据详情：\n 链接：{self.href}\n 发布时间：{self.publishtime}\n标题:{self.projectname}")
														
 
															-            self.save=False
														
 
															-        if self.contentlhtml is not None and self.detail =='':
														
 
															-            self.detail = substitute(self.contentlhtml)
														
 
															-            '''
														
 
															-            detail:去头、去尾
														
 
															-            '''
														
 
															+            self.save = False
														
 
															+            log.warning(f"基础数据为空：\n 发布地址：{self.href}\n 发布时间：{self.publishtime}\n 标题：{self.projectname}")
														
 
															+
														
 
															+        if not self.contenthtml:
														
 
															+            self.save = False
														
 
															+            log.warning(f"正文数据为空：\n 发布地址：{self.href}\n 发布时间：{self.publishtime}\n 标题：{self.projectname}")
														
 
															+        else:
														
 
															+            if not self.detail:
														
 
															+                self.detail = substitute(self.contenthtml)
														
 
															+
														
 
															             if text_search(self.detail).total == 0:
														
 
															-                # 无正文内容时，该内容直接标记true, 不在被统计、不入生产库
														
 
															                 self.sendflag = "true"
														
 
															-class NjpcListItem(Item):
														
 
															+        if not self.projectinfo:
														
 
															+            del self.projectinfo
														
 
															+
														
 
															+
														
 
															+class NjpcListItem(SwordFishProjectItem):
														
 
															+
														
 
															     def __init__(self):
														
 
															-        # 一类字段
														
 
															-        self.href = ""  # 非竞品快照页地址
														
 
															-        self.projectname = ""  # 项目名称
														
 
															-        self.publishtime = ""  # 文章发布时间（日期格式 xxxx-xx-xx）
														
 
															+        super(NjpcListItem, self).__init__()
														
 
															+
														
 
															         self.spidercode = ""  # 爬虫代码（编辑器爬虫平台定义）
														
 
															         self.site = ""  # 采集的站点（编辑器爬虫平台定义）
														
 
															         self.channel = ""  # 采集的版块（编辑器爬虫平台定义）
														
 
															+
														
 
															+        self.parser_name = ""  # 详情爬虫从MongoDB拉取任务的唯一标识,建议使用 spidercode 命名
														
 
															+        self.parser_url = ""  # 详情页数据地址
														
 
															+
														
 
															+        self.comeintime = int2long(tools.get_current_timestamp())  # 入库时间
														
 
															+
														
 
															+        # 一类字段
														
 
															+        self.href = ""  # 非竞品详情页地址
														
 
															+        self.projectname = ""  # 项目名称
														
 
															+        self.publishtime = ""  # 文章发布时间
														
 
															         self.area = "全国"  # 省
														
 
															         self.city = ""  # 市
														
 
															-        self.district = ""  # 区县
														
 
															-
														
 
															-        # 辅助字段 存储时的辅助字段
														
 
															-        self.save = True  # 区县
														
 
															-        self.parser_name = ""  # 处理详情页爬虫的名称
														
 
															-        self.parser_url = ""  # 处理详情页的url
														
 
															-        self.failed = 0 #失败请求的计数
														
 
															+        self.district = ""  # 区/县
														
 
															+        self.request_params = {}  # 定义callback所需的参数，诸如render，headers，method，data，params等等，必须与requests请求的参数名称对应，否则无法识别
														
 
															     def pre_to_db(self):
														
 
															-        pass
														
 
															-
														
 
															+        if CheckData.channel(self.channel, group="njpc"):
														
 
															+            code, reason = CheckData.title(self.projectname, group="njpc")
														
 
															+            if code == 10106:
														
 
															+                log.warning(f"{self.projectname}--不可入库，原因:{reason}")
														
 
															+                self.save = False
														
--- a/FworkSpider/items/spider_item.py
+++ b/FworkSpider/items/spider_item.py
@@ -1,140 +1,144 @@
 
															-from feapder import Item
														
 
															-from untils.tools import int2long, substitute, text_search, CheckPrePareRequest, HtmlEmptyError
														
 
															-import time
														
 
															+import feapder.utils.tools as tools
														
 
															 from feapder.utils.log import log
														
 
															-from feapder.utils.tools import get_current_date
														
 
															-from datetime import datetime
														
 
															-import os
														
 
															-from feapder import setting
														
 
															-global xxc
														
 
															-xxc = 0
														
 
															+from items.base_item import SwordFishProjectItem
														
 
															+from untils.check_data import CheckData
														
 
															+from untils.tools import (
														
 
															+    int2long,
														
 
															+    substitute,
														
 
															+    text_search,
														
 
															+)
														
 
															-class DataBakItem(Item):
														
 
															+class DataBakItem(SwordFishProjectItem):
														
 
															+    """标讯数据"""
														
 
															     def __init__(self):
														
 
															+        super(DataBakItem, self).__init__()
														
 
															+
														
 
															+        self.spidercode = ""  # 爬虫代码（编辑器爬虫平台定义）
														
 
															+        self.site = ""  # 采集的站点（编辑器爬虫平台定义）
														
 
															+        self.channel = ""  # 采集的版块（编辑器爬虫平台定义）
														
 
															+
														
 
															         self.title = ""  # 文章标题
														
 
															-        self.publishtime = ""   # 文章发布时间（日期格式 xxxx-xx-xx）
														
 
															-        self.spidercode = ""   # 爬虫代码（编辑器爬虫平台定义）
														
 
															-        self.site = ""   # 采集的站点（编辑器爬虫平台定义）
														
 
															-        self.channel = ""   # 采集的版块（编辑器爬虫平台定义）
														
 
															-        self.area = "全国"   # 省
														
 
															-        self.city = ""   # 市
														
 
															-        self.competehref = None   # 竞品快照页地址
														
 
															-        self.href = ""   # 非竞品快照页地址
														
 
															-        self.publishdept = ""
														
 
															-        self.iscompete=True
														
 
															-        self.type = ""
														
 
															-        self.T = "bidding"
														
 
															+        self.s_title = ""  # 详情页标题（有必填），默认提供列表页标题
														
 
															+        self.area = "全国"  # 省
														
 
															+        self.city = ""  # 市
														
 
															+        self.district = ""  # 区/县
														
 
															+        self.publishtime = ""  # 文章发布时间（列表页或者详情页发布时间）
														
 
															         self.l_np_publishtime = ""  # 发布时间的时间戳（秒级）, 需定义为long型
														
 
															         self.comeintime = ""  # 入库时间戳（秒级）, 需定义为long型
														
 
															+        self.contenthtml = ""  # 详情页源码
														
 
															+        self.detail = ""  # 详情页源码清洗之后的文本
														
 
															+
														
 
															+        self.href = ""  # 非竞品详情页地址
														
 
															+        self.competehref = None  # 竞品详情页地址
														
 
															+        self.projectinfo = None  # 附件信息,详见剑鱼招投标规范
														
 
															+
														
 
															+        self.iscompete = True  # 新爬虫
														
 
															+
														
 
															         self.sendflag = "false"
														
 
															+        self.T = "bidding"
														
 
															+        self.infoformat = 1
														
 
															+
														
 
															+        # 默认设置
														
 
															+        self.type = ""
														
 
															+        self.publishdept = ""
														
 
															         self._d = "comeintime"
														
 
															-        self.contenthtml = ""  # 快照页源码
														
 
															-        self.detail = ""  # 快照页源码清洗之后招投标文本
														
 
															-        self.projectinfo = None  # 快照页源码清洗之后招投标文本
														
 
															-        self.save = True
														
 
															-    def stop(self):
														
 
															-        self.save=False
														
 
															-        raise HtmlEmptyError
														
 
															     def pre_to_db(self):
														
 
															-        # 生成入库时间戳（秒级）, 定义为long型
														
 
															-        self.comeintime = int2long(time.time())
														
 
															-        # 根据文章发布时间 生成发布时间的时间戳（秒级）, 定义为long型
														
 
															-        '''如果无法解析到发布时间、可以考虑补一个发布时间
														
 
															-        '''
														
 
															+        if not self.s_title:
														
 
															+            self.s_title = self.title
														
 
															+            log.debug("请检测 < s_title > 是否正确！")
														
 
															+
														
 
															+        self.comeintime = int2long(tools.get_current_timestamp())  # 生成入库时间戳（秒级）, 定义为long型
														
 
															+
														
 
															         if ":" in self.publishtime:
														
 
															-            self.l_np_publishtime = int2long(int(time.mktime(time.strptime(self.publishtime, "%Y-%m-%d %H:%M:%S"))))
														
 
															+            self.l_np_publishtime = int2long(tools.date_to_timestamp(self.publishtime))
														
 
															         else:
														
 
															-            self.l_np_publishtime = int2long(int(time.mktime(time.strptime(self.publishtime, "%Y-%m-%d"))))
														
 
															+            self.l_np_publishtime = int2long(tools.date_to_timestamp(self.publishtime, "%Y-%m-%d"))
														
 
															-        # 数据获取失败处理：输出错误日志
														
 
															-        if self.contenthtml is None and self.projectinfo is None:
														
 
															-            log.error(f"{self.href},此链接数据正文抓取失败")
														
 
															-            # self.sendflag = "true"
														
 
															-            self.stop()
														
 
															-        if not self.title or not self.publishtime or not self.href:
														
 
															-            # self.sendflag = "true"
														
 
															-            log.error(f"部分数据抓取失败，数据详情：\n 链接：{self.href}\n 发布时间：{self.publishtime}\n标题:{self.title}")
														
 
															-            self.stop()
														
 
															         # html处理正文
														
 
															-        if self.contenthtml is not None and self.detail =='':
														
 
															-            self.detail = substitute(self.contenthtml)
														
 
															-            '''
														
 
															-            detail:去头、去尾
														
 
															-            '''
														
 
															+        if not self.contenthtml:
														
 
															+            log.warning(f"正文数据为空：\n 发布地址：{self.href}\n 发布时间：{self.publishtime}\n 标题：{self.title}")
														
 
															+            self.save = False
														
 
															+        else:
														
 
															+            if not self.detail:
														
 
															+                self.detail = substitute(self.contenthtml)
														
 
															+
														
 
															             if text_search(self.detail).total == 0:
														
 
															-                # 无正文内容时，该内容直接标记true, 不在被统计
														
 
															-                self.sendflag = "true"
														
 
															+                self.sendflag = "true"   # 无内容数据，数据不入保存服务
														
 
															+
														
 
															+        if not self.title or not self.publishtime or not self.href:
														
 
															+            log.warning(f"基础数据为空：\n 发布地址：{self.href}\n 发布时间：{self.publishtime}\n 标题：{self.title}")
														
 
															+            self.save = False
														
 
															+
														
 
															+        # 竞品网站-详情页地址标识字段
														
 
															+        if not self.competehref:
														
 
															+            del self.competehref
														
 
															+        # 详情无附件，不需要 projectinfo 字段
														
 
															+        if not self.projectinfo:
														
 
															+            del self.projectinfo
														
 
															-class MgpListItem(Item):
														
 
															+
														
 
															+class ExamineAndApproveItem(DataBakItem):
														
 
															+    """审批数据"""
														
 
															     def __init__(self):
														
 
															-        # self.__table_name__='ggg_list'
														
 
															-
														
 
															-        self.parse = "" # 需要调用的方法名称
														
 
															-        self.item = "" # 传过来的参数
														
 
															-        self.parser_name = "" # 处理详情页的爬虫名
														
 
															-        self.date = datetime.now().strftime('%Y-%m-%d %H:%M:%S') # 当前日期时间
														
 
															-        self.comeintime = int2long(int(time.time())) # 当前日期时间戳
														
 
															-        self.deal_detail = [] # 定义解析详情页主页内容的解析，detail_get是一个xpath列表，detail_post 则是一段处理代码
														
 
															-        self.create_time = None # 定义解析详情页发布时间的xpath，列表页无发布时间时应用
														
 
															-        self.parse_url = "" # 定义解析详情页主页内容的xpath
														
 
															-        self.request_params = {} # 定义callback所需的参数，诸如render，headers，method，data，params等等，
														
 
															-                                # 必须与requests请求的参数名称对应，否则无法识别
														
 
															-        self.failed = 0 #失败请求的计数
														
 
															-        self.author = "开发及维护人员" # 开发及维护人员
														
 
															-        self.ex_js = ''  # 定义需要执行的python代码时所需的参数、js_str、js文件路径 等
														
 
															-        self.ex_python = None # 定义需要执行的python代码，生成params/date，如header和cookie特殊，最好使用特殊定义法
														
 
															-        self.pri = 1 # 爬虫报警级 可分9级
														
 
															-        self.proxies = True # 爬虫报警级 可分9级
														
 
															-        self.files = False # 附件采集配置
														
 
															-        self.error = None
														
 
															-        self.spidercode = ""
														
 
															-        self.save=True
														
 
															-
														
 
															-        # self.error_info =
														
 
															-    def pre_to_db(self):
														
 
															-        # 生成入库时间戳（秒级）, 定义为long型
														
 
															-        self.author = os.path.basename(os.getcwd())
														
 
															-        self.spidercode = self.item.get("spidercode")
														
 
															+        super(ExamineAndApproveItem, self).__init__()
														
 
															-        if "通知公告" in self.item.get("channel"):
														
 
															-            code,reason = CheckPrePareRequest().check_crawl_title(self.item.get("title"))
														
 
															-            if code == 10106:
														
 
															-                log.error(f"{self.item.get('title')}----不可入库，失败原因:{reason}")
														
 
															-        elif "公告公示" in self.item.get("channel"):
														
 
															-            code,reason = CheckPrePareRequest().check_crawl_title(self.item.get("title"))
														
 
															-            if code == 10106:
														
 
															-                log.error(f"{self.item.get('title')}----不可入库，失败原因:{reason}")
														
 
															+        self.table_name = "data_bak"
														
 
															+
														
 
															+        self.T = "bidding"
														
 
															+        self.infoformat = 2
														
 
															+
														
 
															+
														
 
															+class PropertyRightItem(DataBakItem):
														
 
															+    """产权数据"""
														
 
															+    def __init__(self):
														
 
															+        super(PropertyRightItem, self).__init__()
														
 
															+
														
 
															+        self.table_name = "data_bak"
														
 
															+
														
 
															+        self.T = "bidding_other"
														
 
															+        self.infoformat = 3
														
 
															-        global xxc
														
 
															-        xxc += 1
														
 
															-    def open_spider(self):
														
 
															-        pass
														
 
															+class MgpListItem(SwordFishProjectItem):
														
 
															-class ListItem(Item):
														
 
															     def __init__(self):
														
 
															+        super(MgpListItem, self).__init__()
														
 
															+
														
 
															         self.spidercode = ""  # 爬虫代码（编辑器爬虫平台定义）
														
 
															-        self.site = ""  # 采集的站点（编辑器爬虫平台定义）
														
 
															-        self.channel = ""  # 采集的版块（编辑器爬虫平台定义）
														
 
															-        self.url = ''
														
 
															-        self.count=0
														
 
															-        self.code=-1
														
 
															-        self.rel_count = 0
														
 
															-        self.save=True
														
 
															-    def pre_to_db(self):
														
 
															-        time.sleep(0.1)
														
 
															-        self.author = setting.author.get(os.path.basename(os.getcwd()))
														
 
															-        if self.author is None:
														
 
															-            self.author = os.path.basename(os.getcwd())
														
 
															-        self.runtime = get_current_date(date_format="%Y-%m-%d")
														
 
															-        global xxc
														
 
															-        print("xxc___________________",xxc)
														
 
															-        self.rel_count = xxc
														
 
															-        xxc = 0
														
 
															+        self.parse_url = ""  # 详情爬虫访问地址
														
 
															+        self.parser_name = ""  # 详情爬虫从MongoDB拉取任务的唯一标识,建议使用 spidercode 命名
														
 
															+        self.parse = ""  # 详情爬虫解析回调方法名
														
 
															+
														
 
															+        self.request_params = {}  # 定义callback所需的参数，诸如render，headers，method，data，params等等，必须与requests请求的参数名称对应，否则无法识别
														
 
															+        self.proxies = True  # 代理
														
 
															+
														
 
															+        self.comeintime = int2long(tools.get_current_timestamp())  # 入库时间
														
 
															+        self.deal_detail = []  # 定义解析详情页主页内容的xpath列表
														
 
															+        self.ex_js = ""  # 定义需要执行的js代码,包括但不限于script、文件路径等
														
 
															+        self.ex_python = None  # 定义需要执行的python代码，生成params/date，如header和cookie特殊，最好使用特殊定义法
														
 
															+        self.files = False  # 采集附件配置
														
 
															+    @property
														
 
															+    def item(self) -> dict:
														
 
															+        return self.__dict__["item"]
														
 
															+
														
 
															+    @item.setter
														
 
															+    def item(self, data_item: DataBakItem):
														
 
															+        self.__dict__["item"] = data_item.to_dict
														
 
															+
														
 
															+    def pre_to_db(self):
														
 
															+        self.spidercode = self.item["spidercode"]
														
 
															+
														
 
															+        title = self.item.get("title")
														
 
															+        channel = self.item["channel"]
														
 
															+        if CheckData.channel(channel):
														
 
															+            code, reason = CheckData.title(title)
														
 
															+            if code == 10106:
														
 
															+                log.warning(f"{title}--不可入库，原因:{reason}")
														
 
															+                self.save = False
														
--- a/FworkSpider/login_pool/__init__.py
+++ b/FworkSpider/login_pool/__init__.py
--- a/FworkSpider/login_pool/zglbw.py
+++ b/FworkSpider/login_pool/zglbw.py
@@ -1,95 +0,0 @@
 
															-
														
 
															-import sys
														
 
															-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															-from untils.cookie_pool import LoginCookiePool
														
 
															-import requests
														
 
															-class ZglbwPool(LoginCookiePool):
														
 
															-
														
 
															-    def create_cookie(self, username, password):
														
 
															-        print(username,password)
														
 
															-        '''
														
 
															-        https://passport.crecgec.com/authorize?type=cas&client_id=1000000053&redirect_uri=https%3A%2F%2Fpassport.crecgec.com%
														
 
															-        2FCAS%2Flogin%3Foauth_name%3DCasWrapperProvider20&response_type=code&param1=8d672ed8-ea12-450f-85f4-82310755b2e3
														
 
															-        
														
 
															-        https://passport.crecgec.com/authorize?type=cas&client_id=1000000053&redirect_uri=https%3A%2F%2Fpassport.crecgec.com%
														
 
															-        2FCAS%2Flogin%3Foauth_name%3DCasWrapperProvider20&response_type=code&param1=8d672ed8-ea12-450f-85f4-82310755b2e3
														
 
															-        '''
														
 
															-        session = requests.Session()
														
 
															-        headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0"}
														
 
															-        url = 'https://passport.crecgec.com/authorize?type=cas&client_id=1000000053&redirect_uri=https%3A%2F%2Fpassport.crecgec.com%2FCAS%2Flogin%3Foauth_name%3DCasWrapperProvider20&response_type=code&param1=9d424669-5af6-4b3d-bed5-56cc06bd5ca6'
														
 
															-        data = {
														
 
															-            "clear": "",
														
 
															-            "BackURL": "null",
														
 
															-            "username": username,
														
 
															-            "password": password,
														
 
															-            "jcaptchaCode": "shmt"
														
 
															-        }
														
 
															-        session.get(url,headers=headers)
														
 
															-        session.post(url, data=data)
														
 
															-        # print(res.headers)
														
 
															-        ss = session.get(url='https://eproport.crecgec.com/getAuthentication')
														
 
															-        print(ss.text)
														
 
															-        cookies = requests.utils.dict_from_cookiejar(session.cookies)
														
 
															-        print(cookies)
														
 
															-        return cookies
														
 
															-
														
 
															-
														
 
															-
														
 
															-
														
 
															-# cookie_pool = ZglbwPool(username_key='username', password_key="password", table_userbase='zglbw',
														
 
															-#                               redis_key='zglbw')
														
 
															-# # cookie_pool.create_cookie('zuoshang123',"123qwe!A")
														
 
															-# # # res = requests.get('https://eproport.crecgec.com/getAuthentication',cookies=cookie)
														
 
															-# # # print(res.text)
														
 
															-# cookie_pool.del_cookie(cookie_pool.get_cookie())
														
 
															-
														
 
															-
														
 
															-# def create_cookie():
														
 
															-#     '''
														
 
															-#     https://passport.crecgec.com/authorize?type=cas&client_id=1000000053&redirect_uri=https%3A%2F%2Fpassport.crecgec.com%
														
 
															-#     2FCAS%2Flogin%3Foauth_name%3DCasWrapperProvider20&response_type=code&param1=8d672ed8-ea12-450f-85f4-82310755b2e3
														
 
															-#
														
 
															-#     https://passport.crecgec.com/authorize?type=cas&client_id=1000000053&redirect_uri=https%3A%2F%2Fpassport.crecgec.com%
														
 
															-#     2FCAS%2Flogin%3Foauth_name%3DCasWrapperProvider20&response_type=code&param1=8d672ed8-ea12-450f-85f4-82310755b2e3
														
 
															-#     '''
														
 
															-#     session = requests.Session()
														
 
															-#     url = 'https://passport.crecgec.com/authorize?type=cas&client_id=1000000053&response_type=code'
														
 
															-#     data = {
														
 
															-#         "clear": "",
														
 
															-#         "BackURL": "null",
														
 
															-#         "username": "zuoshang123",
														
 
															-#         "password": "123qwe!A",
														
 
															-#         "jcaptchaCode": "shmt"
														
 
															-#     }
														
 
															-#     session.get(url)
														
 
															-#     res = session.post(url, data=data)
														
 
															-#
														
 
															-# create_cookie()
														
 
															-# # import requests
														
 
															-#
														
 
															-#
														
 
															-#
														
 
															-# # cookies = {
														
 
															-# #     "srv_id": "53069e9fd596ee2f1c7cf21d24bd170e",
														
 
															-# #     "uid": "e423da7f-1d30-4571-a011-429326f1cfd1",
														
 
															-# #     "Hm_lvt_89c053c39b2269b8a37c5881ca224223": "1642647201",
														
 
															-# #     "JSESSIONID": "752173C3FF0C519DB45BBF781CEC76CB",
														
 
															-# #     "Hm_lpvt_89c053c39b2269b8a37c5881ca224223": "1642661696"
														
 
															-# # }
														
 
															-# # url = "https://passport.crecgec.com/authorize"
														
 
															-# # params = {
														
 
															-# #     "type": "cas",
														
 
															-# #     "client_id": "10000000`53",
														
 
															-# #     "response_type": "code"
														
 
															-# # }
														
 
															-# # data = {
														
 
															-# #     "clear": "",
														
 
															-# #     "BackURL": "null",
														
 
															-# #     "username": "zuoshang123",
														
 
															-# #     "password": "123qwe!A",
														
 
															-# #     "jcaptchaCode": "shmt"
														
 
															-# # }
														
 
															-# # response = requests.post(url, headers=headers, cookies=cookies, params=params, data=data)
														
 
															-# #
														
 
															-# # print(response.text)
														
 
															-# # print(response)
														
--- a/FworkSpider/mongo_pipeline.py
+++ b/FworkSpider/mongo_pipeline.py
@@ -1,56 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""
														
 
															-Created on 2021-04-18 14:12:21
														
 
															----------
														
 
															-@summary: 导出数据
														
 
															----------
														
 
															-@author: 马国鹏
														
 
															-@email:  305021384@qq.com
														
 
															-"""
														
 
															-from typing import Dict, List, Tuple
														
 
															-import time
														
 
															-from feapder.db.redisdb import RedisDB
														
 
															-from feapder.dedup import Dedup
														
 
															-from feapder.pipelines import BasePipeline
														
 
															-from feapder.utils.log import log
														
 
															-from untils.tools import *
														
 
															-
														
 
															-
														
 
															-
														
 
															-class RedisPipeline(BasePipeline):
														
 
															-    '''数据存储管道-redis版'''
														
 
															-    def __init__(self):
														
 
															-        self._to_db = None
														
 
															-
														
 
															-    @property
														
 
															-    def to_db(self):
														
 
															-        if not self._to_db:
														
 
															-            self._to_db = RedisDB()
														
 
															-            print("创建新连接？")
														
 
															-
														
 
															-        return self._to_db
														
 
															-
														
 
															-    def save_items(self, table, items: List[Dict]) -> bool:
														
 
															-        """
														
 
															-        保存数据
														
 
															-        Args:
														
 
															-            table: 表名
														
 
															-            items: 数据，[{},{},...]
														
 
															-
														
 
															-        Returns: 是否保存成功 True / False
														
 
															-                 若False，不会将本批数据入到去重库，以便再次入库
														
 
															-        """
														
 
															-        try:
														
 
															-            add_count = self.to_db.lpush(table="savemongo:"+table, values=items)
														
 
															-            print(add_count)
														
 
															-            datas_size = len(items)
														
 
															-            log.info(
														
 
															-                "共导出 %s 条数据到 %s,  新增 %s条, 重复 %s 条"
														
 
															-                % (datas_size, table, len(items), datas_size - len(items))
														
 
															-            )
														
 
															-
														
 
															-            return True
														
 
															-        except Exception as e:
														
 
															-            log.exception(e)
														
 
															-            return False
														
 
															-
														
--- a/FworkSpider/mongo_pipeline_old.py
+++ b/FworkSpider/mongo_pipeline_old.py
@@ -1,98 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""
														
 
															-Created on 2021-04-18 14:12:21
														
 
															----------
														
 
															-@summary: 导出数据
														
 
															----------
														
 
															-@author: 马国鹏
														
 
															-@email:  305021384@qq.com
														
 
															-"""
														
 
															-from typing import Dict, List, Tuple
														
 
															-import time
														
 
															-from feapder.db.mongodb import MongoDB
														
 
															-from feapder.dedup import Dedup
														
 
															-from feapder.pipelines import BasePipeline
														
 
															-from feapder.utils.log import log
														
 
															-from untils.tools import *
														
 
															-# from crawlab import save_item
														
 
															-
														
 
															-
														
 
															-
														
 
															-class MongoPipeline(BasePipeline):
														
 
															-    def __init__(self):
														
 
															-        self._to_db = None
														
 
															-
														
 
															-    @property
														
 
															-    def to_db(self):
														
 
															-        if not self._to_db:
														
 
															-            self._to_db = MongoDB()
														
 
															-            print("创建新连接？")
														
 
															-
														
 
															-        return self._to_db
														
 
															-
														
 
															-    def save_items(self, table, items: List[Dict]) -> bool:
														
 
															-        """
														
 
															-        保存数据
														
 
															-        Args:
														
 
															-            table: 表名
														
 
															-            items: 数据，[{},{},...]
														
 
															-
														
 
															-        Returns: 是否保存成功 True / False
														
 
															-                 若False，不会将本批数据入到去重库，以便再次入库
														
 
															-        """
														
 
															-        try:
														
 
															-            add_count = self.to_db.add_batch(coll_name=table, datas=items)
														
 
															-            for item in items:
														
 
															-                dedup = Dedup(Dedup.BloomFilter)
														
 
															-                dedup.add([item.get("href")])
														
 
															-                # save_item({'count':item.get("href")})
														
 
															-            datas_size = len(items)
														
 
															-            log.info(
														
 
															-                "共导出 %s 条数据到 %s,  新增 %s条, 重复 %s 条"
														
 
															-                % (datas_size, table, add_count, datas_size - add_count)
														
 
															-            )
														
 
															-            # wechat_warning(f"{site}  数据导报\n共插入 {datas_size} 条数据到 {table}")
														
 
															-            # for i in range(add_count):
														
 
															-            # if table == "mgp_list":
														
 
															-            #     save_item({"site": "失败回填", "title": add_count})
														
 
															-
														
 
															-            return True
														
 
															-        except Exception as e:
														
 
															-            log.exception(e)
														
 
															-            return False
														
 
															-
														
 
															-    def update_items(self, table, items: List[Dict], update_keys=Tuple) -> bool:
														
 
															-        """
														
 
															-        更新数据
														
 
															-        Args:
														
 
															-            table: 表名
														
 
															-            items: 数据，[{},{},...]
														
 
															-            update_keys: 更新的字段, 如 ("title", "publish_time")
														
 
															-
														
 
															-        Returns: 是否更新成功 True / False
														
 
															-                 若False，不会将本批数据入到去重库，以便再次入库
														
 
															-
														
 
															-        """
														
 
															-        try:
														
 
															-            # self.to_db.find()
														
 
															-            add_count = self.to_db.add_batch(
														
 
															-                coll_name=table,
														
 
															-                datas=items,
														
 
															-                update_columns=update_keys or list(items[0].keys()),
														
 
															-            )
														
 
															-            datas_size = len(items)
														
 
															-            update_count = datas_size - add_count
														
 
															-            msg = "共导出 %s 条数据到 %s,  新增 %s 条, 更新 %s 条" % (
														
 
															-                datas_size,
														
 
															-                table,
														
 
															-                add_count,
														
 
															-                update_count,
														
 
															-            )
														
 
															-            if update_keys:
														
 
															-                msg += " 更新字段为 {}".format(update_keys)
														
 
															-            log.info(msg)
														
 
															-
														
 
															-            return True
														
 
															-        except Exception as e:
														
 
															-            log.exception(e)
														
 
															-            return False
														
--- a/FworkSpider/setting.py
+++ b/FworkSpider/setting.py
@@ -1,181 +1,119 @@
 
															 # -*- coding: utf-8 -*-
														
 
															 """爬虫配置文件"""
														
 
															+import datetime
														
 
															 import os
														
 
															-import time
														
 
															 import sys
														
 
															-# from scoket_proxy import Socks5Proxy
														
 
															-#
														
 
															-# # MYSQL
														
 
															-# MYSQL_IP = "localhost"
														
 
															-# MYSQL_PORT = 3306
														
 
															-# MYSQL_DB = ""
														
 
															-# MYSQL_USER_NAME = ""
														
 
															-# MYSQL_USER_PASS = ""
														
 
															-#
														
 
															+
														
 
															 # MONGODB
														
 
															-# MONGO_IP = "192.168.20.51"  # 本地 docker 环境
														
 
															-MONGO_IP = "172.17.4.87"  # 线上环境
														
 
															+MONGO_IP = "172.17.4.87"
														
 
															 MONGO_PORT = 27080
														
 
															-# MONGO_PORT = 27001
														
 
															 MONGO_DB = "py_spider"
														
 
															-# MONGO_USER_NAME = ""
														
 
															-# MONGO_USER_PASS = ""
														
 
															-#
														
 
															-# # REDIS
														
 
															-# # ip:port 多个可写为列表或者逗号隔开 如 ip1:port1,ip2:port2 或 ["ip1:port1", "ip2:port2"]
														
 
															-# REDISDB_IP_PORTS = "192.168.20.51:6379"  # 本地 docker 环境
														
 
															-REDISDB_IP_PORTS = "172.19.0.1:6379"  # 环境
														
 
															-# REDISDB_USER_PASS = ""
														
 
															+
														
 
															+# REDIS
														
 
															+# ip:port 多个可写为列表或者逗号隔开 如 ip1:port1,ip2:port2 或 ["ip1:port1", "ip2:port2"]
														
 
															+REDISDB_IP_PORTS = "172.17.4.232:7361"
														
 
															+REDISDB_USER_PASS = "k5ZJR5KV4q7DRZ92DQ"
														
 
															 REDISDB_DB = 10
														
 
															-# # 适用于redis哨兵模式
														
 
															-REDISDB_SERVICE_NAME = "quchoong"  # 没用到
														
 
															-#
														
 
															-# # 数据入库的pipeline，可自定义，默认MysqlPipeline
														
 
															+
														
 
															+# 数据入库的pipeline，可自定义，默认RedisPipeline
														
 
															 ITEM_PIPELINES = [
														
 
															-    # "feapder.pipelines.mysql_pipeline.MysqlPipeline",
														
 
															     # "feapder.pipelines.mongo_pipeline.MongoPipeline",
														
 
															-    "mongo_pipeline.MongoPipeline"
														
 
															+    "feapder.pipelines.swordfish.redis_pipeline.RedisPipeline"
														
 
															 ]
														
 
															-EXPORT_DATA_MAX_FAILED_TIMES = 5 # 导出数据时最大的失败次数，包括保存和更新，超过这个次数报警
														
 
															-EXPORT_DATA_MAX_RETRY_TIMES = 5 # 导出数据时最大的重试次数，包括保存和更新，超过这个次数则放弃重试
														
 
															-#
														
 
															-# # 爬虫相关
														
 
															-# # COLLECTOR
														
 
															-# COLLECTOR_SLEEP_TIME = 1  # 从任务队列中获取任务到内存队列的间隔
														
 
															-# COLLECTOR_TASK_COUNT = 10  # 每次获取任务数量
														
 
															-#
														
 
															-REDIS_KEY = "fwork" # 没用到
														
 
															-# # SPIDER
														
 
															-SPIDER_THREAD_COUNT = 1  # 爬虫并发数
														
 
															-# SPIDER_SLEEP_TIME = [2, 5] # 下载时间间隔 单位秒。 支持随机 如 SPIDER_SLEEP_TIME = [2, 5] 则间隔为 2~5秒之间的随机数，包含2和5
														
 
															-# SPIDER_TASK_COUNT = 1  # 每个parser从内存队列中获取任务的数量
														
 
															-SPIDER_MAX_RETRY_TIMES = 5  # 每个请求最大重试次数
														
 
															-# KEEP_ALIVE = False  # 爬虫是否常驻
														
 
															-#
														
 
															-# # 浏览器渲染
														
 
															-WEBDRIVER  = dict(
														
 
															+# 导出数据时最大的失败次数，包括保存和更新，超过这个次数报警
														
 
															+EXPORT_DATA_MAX_FAILED_TIMES = 5
														
 
															+# 导出数据时最大的重试次数，包括保存和更新，超过这个次数则放弃重试
														
 
															+EXPORT_DATA_MAX_RETRY_TIMES = 5
														
 
															+
														
 
															+COLLECTOR_TASK_COUNT = 100  # 每次获取任务数量
														
 
															+
														
 
															+# 爬虫
														
 
															+SPIDER_THREAD_COUNT = 1  # 爬虫并发数，追求速度推荐32
														
 
															+SPIDER_MAX_RETRY_TIMES = 3  # 每个请求最大重试次数
														
 
															+
														
 
															+# 浏览器渲染
														
 
															+WEBDRIVER = dict(
														
 
															+    server_addr="http://172.17.4.232:6666/wd/hub",  # selenium 远程服务地址
														
 
															+    version="",  # 浏览器版本。不指定版本时，随机分发，版本详见群公告
														
 
															     pool_size=1,  # 浏览器的数量
														
 
															     load_images=False,  # 是否加载图片
														
 
															-    # user_agent=None,  # 字符串 或 无参函数，返回值为user_agent
														
 
															-    proxy=None,  # xxx.xxx.xx.xxx:xxxx 或 无参函数，返回值为代理地址
														
 
															+    user_agent=None,  # 字符串 或 无参函数，返回值为user_agent
														
 
															     headless=True,  # 是否为无头浏览器
														
 
															-    driver_type="FIREFOX",  # CHROME、PHANTOMJS、FIREFOX
														
 
															+    proxy=None,  # xxx.xxx.xx.xxx:xxxx 或 无参函数，返回值为代理地址
														
 
															+    driver_type="FIREFOX",  # CHROME、FIREFOX、EDGE
														
 
															     timeout=30,  # 请求超时时间
														
 
															+    executable_path=None,  # 浏览器路径，默认为默认路径
														
 
															+    usages_local_driver=True,  # 是否使用本地驱动，默认启动本地驱动
														
 
															     window_size=(1280, 800),  # 窗口大小
														
 
															-    # executable_path="D:\\geckodriver.exe",  # 浏览器路径，默认为默认路径
														
 
															     render_time=0,  # 渲染时长，即打开网页等待指定时间后再获取源码
														
 
															     custom_argument=["--ignore-certificate-errors"],  # 自定义浏览器渲染参数
														
 
															+    service_log_path=os.devnull  # 日志路径，默认置空
														
 
															 )
														
 
															-#wget https://github.com/mozilla/geckodriver/releases/download/v0.25.0/geckodriver-v0.25.0-linux64.tar.gz
														
 
															-# # 爬虫启动时，重新抓取失败的requests
														
 
															-# RETRY_FAILED_REQUESTS = False
														
 
															-# # 保存失败的request
														
 
															-# SAVE_FAILED_REQUEST = True
														
 
															-# # request防丢机制。（指定的REQUEST_LOST_TIMEOUT时间内request还没做完，会重新下发 重做）
														
 
															-# REQUEST_LOST_TIMEOUT = 600  # 10分钟
														
 
															-# # request网络请求超时时间
														
 
															-# REQUEST_TIMEOUT = 22  # 等待服务器响应的超时时间，浮点数，或(connect timeout, read timeout)元组
														
 
															-#
														
 
															-# # 下载缓存 利用redis缓存，但由于内存大小限制，所以建议仅供开发调试代码时使用，防止每次debug都需要网络请求
														
 
															-# RESPONSE_CACHED_ENABLE = False  # 是否启用下载缓存 成本高的数据或容易变需求的数据，建议设置为True
														
 
															-# RESPONSE_CACHED_EXPIRE_TIME = 3600  # 缓存时间 秒
														
 
															-# RESPONSE_CACHED_USED = False  # 是否使用缓存 补采数据时可设置为True
														
 
															-#
														
 
															-# # 设置代理
														
 
															-PROXY_EXTRACT_API = "http://socks.spdata.jianyu360.com/socks/getips?limit=100"  # 代理提取API ，返回的代理分割符为\r\n
														
 
															+# 爬虫启动时，重新入库失败的item
														
 
															+RETRY_FAILED_ITEMS = True
														
 
															+
														
 
															+# 保存失败的request
														
 
															+SAVE_FAILED_REQUEST = False
														
 
															+
														
 
															+# request网络请求超时时间
														
 
															+REQUEST_TIMEOUT = 60
														
 
															+
														
 
															+# 调度器，存放item与request的根目录
														
 
															+REDIS_KEY = "fwork"
														
 
															+
														
 
															+# 设置代理，代理提取API ，返回的代理分割符为\r\n
														
 
															+PROXY_EXTRACT_API = "http://proxy.spdata.jianyu360.com/proxy/getallip"
														
 
															 PROXY_ENABLE = True
														
 
															-#
														
 
															-# # 随机headers
														
 
															-# RANDOM_HEADERS = True
														
 
															-# # UserAgent类型 支持 'chrome', 'opera', 'firefox', 'internetexplorer', 'safari'，'mobile' 若不指定则随机类型
														
 
															-# USER_AGENT_TYPE = "chrome"
														
 
															-# # 默认使用的浏览器头 RANDOM_HEADERS=True时不生效
														
 
															-# DEFAULT_USERAGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
														
 
															-# # requests 使用session
														
 
															-# USE_SESSION = False
														
 
															-#
														
 
															-# # 去重
														
 
															-# ITEM_FILTER_ENABLE = False  # item 去重
														
 
															-# REQUEST_FILTER_ENABLE = False  # request 去重
														
 
															-# ITEM_FILTER_SETTING = dict(
														
 
															-#     filter_type=1  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3
														
 
															-# )
														
 
															-# REQUEST_FILTER_ENABLE = True  # request 去重
														
 
															-# REQUEST_FILTER_SETTING = dict(
														
 
															-#     filter_type=3,  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3
														
 
															-#     expire_time=2592000,  # 过期时间1个月
														
 
															-# )
														
 
															-#
														
 
															-# # 报警 支持钉钉、企业微信、邮件
														
 
															-# # 钉钉报警
														
 
															-# DINGDING_WARNING_URL = ""  # 钉钉机器人api
														
 
															-# DINGDING_WARNING_PHONE = ""  # 报警人 支持列表，可指定多个
														
 
															-# DINGDING_WARNING_ALL = False # 是否提示所有人， 默认为False
														
 
															-# # 邮件报警
														
 
															-# EMAIL_SENDER = ""  # 发件人
														
 
															-# EMAIL_PASSWORD = ""  # 授权码
														
 
															-# EMAIL_RECEIVER = ""  # 收件人 支持列表，可指定多个
														
 
															-# EMAIL_SMTPSERVER = "smtp.163.com" # 邮件服务器 默认为163邮箱
														
 
															-# # 企业微信报警
														
 
															-# WECHAT_WARNING_URL = "https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=89f0b1e9-8d08-4e26-a563-cd6b07b9db14"  # 企业微信机器人api
														
 
															+
														
 
															+# item去重
														
 
															+ITEM_FILTER_ENABLE = True  # item 去重
														
 
															+ITEM_FILTER_SETTING = dict(
														
 
															+    filter_type=5,  # 永久去重（BloomFilter） = 1 、内存去重（MemoryFilter） = 2、 临时去重（ExpireFilter）= 3、 轻量去重（LiteFilter）= 4、集群去重（SwordFishFilter）= 5
														
 
															+    expire_time=63072000,  # 过期时间2年
														
 
															+    redis_url=["172.17.4.239:2479", "172.17.4.240:2579", "172.17.4.84:2379"],  # 集群节点
														
 
															+)
														
 
															+
														
 
															+# 企业微信报警
														
 
															 WECHAT_WARNING_URL = "https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=-4e26-a563-cd6b07b9db14"  # 企业微信机器人api
														
 
															-WECHAT_WARNING_PHONE = "马国鹏"  # 报警人 将会在群内@此人, 支持列表，可指定多人
														
 
															+WECHAT_WARNING_PHONE = "swordFish"  # 报警人 将会在群内@此人, 支持列表，可指定多人
														
 
															 WECHAT_WARNING_ALL = True  # 是否提示所有人， 默认为False
														
 
															-# # 时间间隔
														
 
															+# 时间间隔
														
 
															 WARNING_INTERVAL = 360  # 相同报警的报警时间间隔，防止刷屏; 0表示不去重
														
 
															-# WARNING_LEVEL = "DEBUG"  # 报警级别， DEBUG / ERROR
														
 
															-WARNING_LEVEL = "INFO"  # 报警级别， DEBUG / ERROR
														
 
															+WARNING_LEVEL = "ERROR"  # 报警级别， DEBUG / ERROR
														
 
															 WARNING_FAILED_COUNT = 2  # 任务失败数 超过WARNING_FAILED_COUNT则报警
														
 
															-#
														
 
															-#LOG_NAME = os.path.basename(os.getcwd())
														
 
															-DTIME = time.strftime("%Y-%m-%d", time.localtime(time.time()))
														
 
															-LOG_NAME = os.path.split(sys.argv[0])[-1].split('.')[0]
														
 
															-LOG_PATH = "log/%s/%s.log" %(DTIME,LOG_NAME)  # log存储路径
														
 
															-LOG_LEVEL = "INFO"
														
 
															+# 日志设置
														
 
															+DTIME = datetime.datetime.now().strftime("%Y-%m-%d")
														
 
															+LOG_NAME = os.path.split(sys.argv[0])[-1].split(".")[0]
														
 
															+LOG_PATH = "log/%s/%s.log" % (DTIME, LOG_NAME)  # log存储路径
														
 
															+LOG_LEVEL = "ERROR"
														
 
															 LOG_COLOR = True  # 是否带有颜色
														
 
															-LOG_IS_WRITE_TO_CONSOLE = True # 是否打印到控制台
														
 
															-# LOG_IS_WRITE_TO_FILE = True  # 是否写文件
														
 
															-# LOG_MODE = "w"  # 写文件的模式
														
 
															+LOG_IS_WRITE_TO_CONSOLE = True  # 是否打印到控制台
														
 
															+LOG_IS_WRITE_TO_FILE = True  # 是否写文件
														
 
															+LOG_MODE = "w"  # 写文件的模式
														
 
															 LOG_MAX_BYTES = 10 * 1024 * 1024  # 每个日志文件的最大字节数
														
 
															 LOG_BACKUP_COUNT = 20  # 日志文件保留数量
														
 
															 LOG_ENCODING = "utf8"  # 日志文件编码
														
 
															 OTHERS_LOG_LEVAL = "ERROR"  # 第三方库的log等级 一般用不到
														
 
															-#
														
 
															-# # 切换工作路径为当前项目路径
														
 
															-# project_path = os.path.abspath(os.path.dirname(__file__))
														
 
															-# os.chdir(project_path)  # 切换工作路经
														
 
															-# sys.path.insert(0, project_path)
														
 
															-# print('当前工作路径为 ' + os.getcwd())
														
 
															-
														
 
															-# 代理服务-未解析的
														
 
															-jy_proxy = {'socks5': {'url': 'http://socks.spdata.jianyu360.com/socks/getips?limit=100', 'decrypt': 'ABNOPqrceQRSTklmUDEFGXYZabnopfghHVWdijstuvwCIJKLMxyz0123456789+/'}}
														
 
															-
														
 
															-headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36', 'Accept': '*/*'}
														
 
															-
														
 
															-# 文件存储功能的配置信息
														
 
															-oss_={'key_id': 'LTAI4G5x9aoZx8dDamQ7vfZi', 'key_secret': 'Bk98FsbPYXcJe72n1bG3Ssf73acuNh',
														
 
															-      'endpoint': 'oss-cn-beijing.aliyuncs.com', 'bucket_name': 'jy-datafile'}
														
 
															-# oss_={'key_id': 'LTAI4G5x9aoZx8dDamQ7vfZi', 'key_secret': 'Bk98FsbPYXcJe72n1bG3Ssf73acuNh', 'endpoint': 'oss-cn-beijing-internal.aliyuncs.com', 'bucket_name': 'jy-editor'}
														
 
															-
														
 
															-author = {"dzr":"董钊瑞",'mgp':"马国鹏","lzz":"李宗泽"}
														
 
															-
														
 
															-# 线上代理服务的api地址
														
 
															-JIANYU_PROXY_URL = 'http://cc.spdata.jianyu360.com/crawl/proxy/socks5/fetch'
														
 
															-JIANYU_PROXY_AUTHOR = 'Basic amlhbnl1MDAxOjEyM3F3ZSFB'
														
 
															-
														
 
															-# splash 渲染服务的api接口配置
														
 
															-JIANYU_SPLASH_URL = 'http://8.131.72.226:8998/render.json'
														
 
															-
														
 
															-# 测试环境的redis集群 -- url去重专用
														
 
															-REDISCLUSTER =  [
														
 
															-                {"host": "192.168.3.207", "port": "2179"},
														
 
															-                {"host": "192.168.3.166", "port": "2379"}
														
 
															-            ]
														
 
															-
														
 
															-# 正式环境的redis集群 -- url去重专用
														
 
															-# REDISCLUSTER =  [
														
 
															-#                 {"host": "172.17.4.239", "port": "2479"},
														
 
															-#                 {"host": "172.17.4.240", "port": "2579"},
														
 
															-#                 {"host": "172.17.4.84", "port": "2379"}
														
 
															-#             ]
														
 
															+# elk服务
														
 
															+LOG_IS_SEND_TO_LOGSTASH = False
														
 
															+LOGSTASH_IP = "47.95.151.156"  # 已失效("47.95.151.156")
														
 
															+LOGSTASH_PORT = 5044
														
 
															+
														
 
															+# 自建代理池
														
 
															+SWORDFISH_PROXY_URL = "http://cc.spdata.jianyu360.com/crawl/proxy/socks5/fetch"
														
 
															+SWORDFISH_PROXY_AUTHOR = "Basic amlhbnl1MDAxOjEyM3F3ZSFB"
														
 
															+
														
 
															+# splash 渲染服务
														
 
															+SWORDFISH_RENDER_URL = "http://59.110.6.43:8998/render.json"
														
 
															+
														
 
															+# 爬虫心跳
														
 
															+HEARTBEAT_TABLE = "spider_heartbeat"  # 爬虫采集心跳记录表名
														
 
															+
														
 
															+# 远程bucket配置
														
 
															+ALI_BUCKET_CONFIG = {
														
 
															+    "key_id": "LTAI4G5x9aoZx8dDamQ7vfZi",
														
 
															+    "key_secret": "Bk98FsbPYXcJe72n1bG3Ssf73acuNh",
														
 
															+    "endpoint": "oss-cn-beijing-internal.aliyuncs.com",
														
 
															+    "bucket_name": "jy-datafile"
														
 
															+}
														
--- a/FworkSpider/untils/WebCookiePool.py
+++ b/FworkSpider/untils/WebCookiePool.py
@@ -1,19 +1,16 @@
 
															-import json
														
 
															 import sys
														
 
															-import requests
														
 
															-import re,execjs
														
 
															-
														
 
															 sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															-# from utils.cookie_pool import PageCookiePool
														
 
															+
														
 
															 from feapder.utils.webdriver import WebDriver
														
 
															 from feapder.utils.log import log
														
 
															 from untils.cookie_pool import PageCookiePool
														
 
															+import feapder.utils.tools as tools
														
 
															+
														
 
															 class WebCookiePool(PageCookiePool):
														
 
															-    def __init__(self, redis_key, page_url=None,cookie_key=None,
														
 
															-                 min_cookies=10000, must_contained_keys=(), keep_alive=False, **kwargs):
														
 
															-        super(WebCookiePool, self).__init__(redis_key, page_url=None,
														
 
															-                                           min_cookies=10000, must_contained_keys=(), keep_alive=False, **kwargs)
														
 
															+
														
 
															+    def __init__(self, redis_key, page_url, cookie_key, **kwargs):
														
 
															+        super(WebCookiePool, self).__init__(redis_key, **kwargs)
														
 
															         self.page_url = page_url
														
 
															         self.cookie_key = cookie_key
														
 
															         self._kwargs = kwargs
														
@@ -22,30 +19,16 @@ class WebCookiePool(PageCookiePool):
 
															         self._kwargs.setdefault("driver_type", "FIREFOX")
														
 
															     def create_cookie(self):
														
 
															-        with WebDriver(**self._kwargs) as driver_pool:
														
 
															-            import time
														
 
															-            # time.sleep(1111)
														
 
															+        with WebDriver(**self._kwargs) as browser:
														
 
															             try:
														
 
															-                # driver_pool = self.driver_pool.get()
														
 
															-                driver_pool.get(self.page_url)
														
 
															+                browser.get(self.page_url)
														
 
															                 count = 0
														
 
															-                while self.cookie_key not in driver_pool.cookies.keys():
														
 
															-                    time.sleep(1)
														
 
															-                    count+=1
														
 
															-                    if count>=30:
														
 
															+                while self.cookie_key not in browser.cookies.keys():
														
 
															+                    tools.delay_time(1)
														
 
															+                    count += 1
														
 
															+                    if count >= 30:
														
 
															                         return
														
 
															-                cookies = driver_pool.cookies
														
 
															+                cookies = browser.cookies
														
 
															                 return cookies
														
 
															             except Exception as e:
														
 
															                 log.error(f"获取cookie失败,{e}")
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    for i in range(10):
														
 
															-        print(f'开始第{i+1}次获取cookie')
														
 
															-        if i%3==0:
														
 
															-            WebCookiePool(redis_key='gdcookie',cookie_key='SUB',page_url="https://weibo.com/p/1005051203448454/home?from=page_100505_profile&wvr=6&mod=data&is_all=1#place").create_cookie()
														
 
															-        elif i%3==1:
														
 
															-            WebCookiePool(redis_key='gd2cookie',cookie_key='locale',page_url="https://www.jianshu.com/p/4c5bc85fc3fd").create_cookie()
														
 
															-        else:
														
 
															-            WebCookiePool(redis_key='gd3cookie',cookie_key='cna',page_url="https://docs-next.crawlab.cn/zh/guide/installation/docker.html#%E5%A4%96%E9%83%A8-mongodb").create_cookie()
														
--- a/FworkSpider/untils/__init__.py
+++ b/FworkSpider/untils/__init__.py
@@ -1,7 +1,6 @@
 
															 import oss2
														
 
															-# from config.load import oss_conf
														
 
															-from feapder.setting import oss_ as oss_conf
														
 
															+from feapder.setting import ALI_BUCKET_CONFIG as oss_conf
														
 
															 class AliYunService:
														
@@ -22,3 +21,15 @@ class AliYunService:
 
															         auth = oss2.Auth(self.__acc_key_id, self.__acc_key_secret)
														
 
															         bucket = oss2.Bucket(auth, self.__endpoint, self.__bucket_name)
														
 
															         bucket.put_object_from_file(key, filename)
														
 
															+
														
 
															+    def push_oss_from_stream(self, key, data):
														
 
															+        """
														
 
															+        流式上传oss
														
 
															+
														
 
															+        :param str key: 上传到OSS的文件名
														
 
															+        :param data: 待上传的内容。
														
 
															+        :type data: bytes，str或file-like object
														
 
															+        """
														
 
															+        auth = oss2.Auth(self.__acc_key_id, self.__acc_key_secret)
														
 
															+        bucket = oss2.Bucket(auth, self.__endpoint, self.__bucket_name)
														
 
															+        bucket.put_object(key, data)
														
--- a/FworkSpider/untils/attachment.py
+++ b/FworkSpider/untils/attachment.py
@@ -1,20 +1,28 @@
 
															 import hashlib
														
 
															+import io
														
 
															 import os
														
 
															-import sys
														
 
															 import traceback
														
 
															 import uuid
														
 
															-from urllib import request
														
 
															+
														
 
															 import requests
														
 
															+import tqdm
														
 
															 import urllib3
														
 
															-from feapder.setting import headers
														
 
															-from untils.execptions import AttachmentNullError
														
 
															+
														
 
															 from untils.aliyun import AliYunService
														
 
															+from untils.execptions import AttachmentNullError
														
 
															 from untils.proxy_pool import ProxyPool
														
 
															-import time
														
 
															-import tqdm
														
 
															+
														
 
															 urllib3.disable_warnings()
														
 
															+
														
 
															+headers = {
														
 
															+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36',
														
 
															+    'Accept': '*/*'
														
 
															+}
														
 
															+
														
 
															+
														
 
															 class AttachmentDownloader:
														
 
															-    '''附件下载模块'''
														
 
															+    """附件下载模块"""
														
 
															+
														
 
															     def __init__(self):
														
 
															         self.dir_name = 'file'
														
@@ -22,92 +30,141 @@ class AttachmentDownloader:
 
															         if not os.path.exists(self.dir_name):
														
 
															             os.makedirs(self.dir_name, mode=0o777, exist_ok=True)
														
 
															-    def create_file_path(self, filename, file_type):
														
 
															+    def create_file(self, filename, file_type):
														
 
															         self.create_dir()
														
 
															-        sign = self.hex_sha1("{}_{}".format(filename, uuid.uuid4()))
														
 
															-        tmp_name = "{}.{}".format(sign, file_type)
														
 
															-        return "{}/{}".format(self.dir_name, tmp_name)
														
 
															+        sign = self._hash("{}_{}".format(filename, uuid.uuid4()))
														
 
															+        local_file_name = "{}.{}".format(sign, file_type)
														
 
															+        return "{}/{}".format(self.dir_name, local_file_name)
														
 
															+
														
 
															+    def create_fid(self, data: bytes):
														
 
															+        return self._hash(data)
														
 
															-    def hex_sha1(self,val):
														
 
															-        sha1 = hashlib.sha1()
														
 
															+    @staticmethod
														
 
															+    def _hash(val):
														
 
															+        _sha1 = hashlib.sha1()
														
 
															         if isinstance(val, bytes):
														
 
															-            sha1.update(str(val).encode("utf-8"))
														
 
															+            _sha1.update(str(val).encode("utf-8"))
														
 
															         elif isinstance(val, str):
														
 
															-            sha1.update(val.encode("utf-8"))
														
 
															-        res = sha1.hexdigest()
														
 
															-        return res
														
 
															+            _sha1.update(val.encode("utf-8"))
														
 
															+        return _sha1.hexdigest()
														
 
															     @staticmethod
														
 
															-    def create_fid(file_stream: bytes):
														
 
															-        sha1 = hashlib.sha1()
														
 
															-        if isinstance(file_stream, bytes):
														
 
															-            sha1.update(str(file_stream).encode("utf-8"))
														
 
															-        elif isinstance(file_stream, str):
														
 
															-            sha1.update(file_stream.encode("utf-8"))
														
 
															-        res = sha1.hexdigest()
														
 
															-        return res
														
 
															+    def clean_attachment(file_path):
														
 
															+        """
														
 
															+        删除文件
														
 
															+        :param str file_path: 文件路径
														
 
															+        """
														
 
															+        try:
														
 
															+            os.remove(file_path)
														
 
															+        except FileNotFoundError:
														
 
															+            pass
														
 
															+
														
 
															+    def remove(self, file):
														
 
															+        self.clean_attachment(file)
														
 
															     @staticmethod
														
 
															-    def clean_attachment(file_path):
														
 
															-        os.remove(file_path)
														
 
															+    def get_mb(data):
														
 
															+        """
														
 
															+        获取数据的Mb
														
 
															+
														
 
															+        :param int data: 准备计算大小的内容
														
 
															+        :return: float
														
 
															+        """
														
 
															+        _kb = float(data / 1024.0)
														
 
															+        return float(_kb / 1024.0)
														
 
															     @staticmethod
														
 
															-    def getsize(file_path: str):
														
 
															-        def _getsize(filename):
														
 
															+    def getsize(data):
														
 
															+        """
														
 
															+        计算数据大小
														
 
															+
														
 
															+        :param data: 待上传的内容。
														
 
															+        :type data: bytes，str或file-like object
														
 
															+        :return str
														
 
															+        """
														
 
															+        size = 0
														
 
															+        if isinstance(data, str):
														
 
															             try:
														
 
															-                return os.path.getsize(filename)
														
 
															-            except:
														
 
															-                return 0
														
 
															+                size = os.path.getsize(data)
														
 
															+            except FileNotFoundError:
														
 
															+                pass
														
 
															+        elif isinstance(data, bytes):
														
 
															+            size = len(data)
														
 
															+        else:
														
 
															+            pass
														
 
															-        _kb = float(_getsize(file_path)) / 1024
														
 
															+        _kb = float(size) / 1024
														
 
															+        result = "{:.1f} kb".format(_kb)
														
 
															         if _kb >= 1024:
														
 
															             _M = _kb / 1024
														
 
															             if _M >= 1024:
														
 
															                 _G = _M / 1024
														
 
															-                return "{:.1f} G".format(_G)
														
 
															+                result = "{:.1f} G".format(_G)
														
 
															             else:
														
 
															-                return "{:.1f} M".format(_M)
														
 
															-        else:
														
 
															-            return "{:.1f} kb".format(_kb)
														
 
															+                result = "{:.1f} M".format(_M)
														
 
															+        return result
														
 
															-    @staticmethod
														
 
															-    def _fetch_attachment(
														
 
															-            url: str,
														
 
															-            file_path: str,
														
 
															-            enable_proxy=False,
														
 
															-            allow_show_exception=False,
														
 
															-            **kwargs
														
 
															-    ):
														
 
															+    def fetch_data(self, url, file=None, **kwargs):
														
 
															+        """
														
 
															+        数据下载
														
 
															+
														
 
															+        :param str url: 下载地址
														
 
															+        :param file: 本地文件
														
 
															+        :param dict kwargs: requests请求参数
														
 
															+        :return:
														
 
															+        """
														
 
															+        enable_proxy = kwargs.pop('enable_proxy', False)
														
 
															+        allow_show_exception = kwargs.pop('allow_show_exception', False)
														
 
															+        method = kwargs.pop('method', 'get')
														
 
															         request_params = {}
														
 
															+        request_params.setdefault('data', kwargs.pop('data', None))
														
 
															+        request_params.setdefault('cookies', kwargs.pop('cookies', None))
														
 
															         request_params.setdefault('headers', kwargs.get('headers') or headers)
														
 
															         request_params.setdefault('proxies', kwargs.get('proxies'))
														
 
															-        request_params.setdefault('timeout', kwargs.get('timeout') or 60)
														
 
															-        # request_params.setdefault('stream', kwargs.get('stream') or True)
														
 
															-        request_params.setdefault('verify', kwargs.get('verify') or False)
														
 
															-        if enable_proxy:
														
 
															-            proxy = ProxyPool().get()
														
 
															-        else:
														
 
															-            proxy = {}
														
 
															+        request_params.setdefault('timeout', kwargs.pop('timeout', 60))
														
 
															+        request_params.setdefault('stream', kwargs.pop('stream', True))
														
 
															+        request_params.setdefault('verify', kwargs.pop('verify', False))
														
 
															+        request_params.setdefault('allow_redirects', kwargs.pop('allow_redirects', True))
														
 
															+
														
 
															         retries = 0
														
 
															         while retries < 3:
														
 
															             try:
														
 
															-                with requests.get(url,stream=True, **request_params) as req:
														
 
															-                    content_size = req.headers.get('Content-Length') or 0
														
 
															-                    content_size = int(content_size)
														
 
															-                    stream = b''
														
 
															-                    if req.status_code == 200:
														
 
															-                        with open(file_path, 'wb') as f:
														
 
															-                            with tqdm.tqdm(total=content_size, unit='B', initial=0, unit_scale=True, unit_divisor=1024,
														
 
															-                                      ascii=True,desc=file_path) as bar:
														
 
															-                                for chunk in req.iter_content(chunk_size=1024*20):
														
 
															-                                    if chunk:
														
 
															-                                        f.write(chunk)
														
 
															-                                    stream += chunk
														
 
															-                                    bar.update(len(chunk))
														
 
															-                        return stream
														
 
															-                    else:
														
 
															+                with requests.request(method, url, **request_params) as req:
														
 
															+                    stream = io.BytesIO()
														
 
															+                    lh = {k.lower(): v for k, v in req.headers.items()}
														
 
															+                    '''内容长度'''
														
 
															+                    cl = lh.get('content-length') or len(req.content)
														
 
															+                    icl = int(cl)
														
 
															+                    content_length = self.get_mb(icl)
														
 
															+                    if content_length > 50:
														
 
															+                        '''丢弃超过50Mb内容长度的文件'''
														
 
															+                        return stream.getvalue()
														
 
															+
														
 
															+                    if req.status_code != 200:
														
 
															                         retries += 1
														
 
															+                        continue
														
 
															+
														
 
															+                    iter_content = req.iter_content(chunk_size=1024 * 20)
														
 
															+                    with tqdm.tqdm(
														
 
															+                            total=icl,
														
 
															+                            unit='B',
														
 
															+                            initial=0,
														
 
															+                            unit_scale=True,
														
 
															+                            unit_divisor=1024,  # 1M=1024Kb,单位换算
														
 
															+                            ascii=True,
														
 
															+                            desc=file) as bar:
														
 
															+                        if file is not None:
														
 
															+                            with open(file, 'wb') as f:
														
 
															+                                for chunk in iter_content:
														
 
															+                                    stream.write(chunk)
														
 
															+                                    size = f.write(chunk)
														
 
															+                                    bar.update(size)
														
 
															+                        else:
														
 
															+                            for chunk in iter_content:
														
 
															+                                size = stream.write(chunk)
														
 
															+                                bar.update(size)
														
 
															+                    return stream.getvalue()
														
 
															             except requests.RequestException:
														
 
															                 if allow_show_exception:
														
 
															                     traceback.print_exc()
														
@@ -116,129 +173,115 @@ class AttachmentDownloader:
 
															                 retries += 1
														
 
															         return b''
														
 
															-    def fetch_attachment(
														
 
															-            self,
														
 
															-            file_name: str,
														
 
															-            file_type: str,
														
 
															-            download_url: str,
														
 
															-            enable_proxy=False,
														
 
															-            allow_request_exception=False,
														
 
															-            **kwargs
														
 
															-    ):
														
 
															-        if not file_name or not file_type or not download_url:
														
 
															-            raise AttachmentNullError
														
 
															-        file_path = self.create_file_path(file_name, file_type)
														
 
															-        file_stream = self._fetch_attachment(
														
 
															-            download_url,
														
 
															-            file_path,
														
 
															-            enable_proxy,
														
 
															-            allow_request_exception,
														
 
															-            **kwargs
														
 
															-        )
														
 
															-        # file_stream = self.download_file(download_url,file_path,enable_proxy,allow_request_exception)
														
 
															-        if len(file_stream) > 0:
														
 
															-            fid = self.create_fid(file_stream)
														
 
															-            '''上传/下载,无论失败成功都需要给出文件基础信息'''
														
 
															+    def _push_oss_from_stream(self, file_name, file_type, url, **kw):
														
 
															+        """
														
 
															+        将数据流推送oss
														
 
															+
														
 
															+        :param str file_name: 文件名称
														
 
															+        :param str file_type: 文件类型
														
 
															+        :param str url: 下载地址
														
 
															+        :param dict kw: 额外下载信息
														
 
															+        :return: dict: 附件信息
														
 
															+        """
														
 
															+        stream = self.fetch_data(url, None, **kw)
														
 
															+        if len(stream) > 0:
														
 
															+            fid = self.create_fid(stream)
														
 
															             try:
														
 
															                 result = {
														
 
															                     'filename': file_name,
														
 
															                     'ftype': file_type,
														
 
															                     'fid': "{}.{}".format(fid, file_type),
														
 
															-                    'org_url': download_url,
														
 
															-                    'size': self.getsize(file_path),
														
 
															+                    'org_url': url,
														
 
															+                    'size': self.getsize(stream),
														
 
															                     'url': 'oss',
														
 
															                 }
														
 
															-                AliYunService().push_oss_from_local(result['fid'], file_path)
														
 
															+                AliYunService().push_oss_from_stream(result['fid'], stream)
														
 
															             except Exception:
														
 
															                 result = {
														
 
															                     'filename': file_name,
														
 
															-                    'org_url': download_url,
														
 
															+                    'org_url': url,
														
 
															                 }
														
 
															-            self.clean_attachment(file_path)
														
 
															         else:
														
 
															             result = {
														
 
															                 'filename': file_name,
														
 
															-                'org_url': download_url,
														
 
															+                'org_url': url,
														
 
															             }
														
 
															         return result
														
 
															-    def download_file(self, url, file_path, call_func=None,enable_proxy=False,data=None):
														
 
															+    def _push_oss_from_file(self, file_name, file_type, url, **kw):
														
 
															         """
														
 
															-        Args:
														
 
															-            url: 地址
														
 
															-            file_path: 文件存储地址
														
 
															-            call_func: 下载成功的回调
														
 
															-        Returns:
														
 
															+        将本地文件推送oss
														
 
															+
														
 
															+        :param str file_name: 文件名称
														
 
															+        :param str file_type: 文件类型
														
 
															+        :param str url: 下载地址
														
 
															+        :param dict kw: 额外下载信息
														
 
															+        :return: dict: 附件信息
														
 
															         """
														
 
															-        # proxies = kwargs.get('proxies') or None
														
 
															-        # data = kwargs.get('data') or None
														
 
															-        start_time = time.time()
														
 
															-        def progress_callfunc(blocknum, blocksize, totalsize):
														
 
															-            """回调函数
														
 
															-            @blocknum : 已经下载的数据块
														
 
															-            @blocksize : 数据块的大小
														
 
															-            @totalsize: 远程文件的大小
														
 
															-            """
														
 
															-            speed = (blocknum * blocksize) / (time.time() - start_time)
														
 
															-            # speed_str = " Speed: %.2f" % speed
														
 
															-            speed_str = " Speed: %s" % format_size(speed)
														
 
															-            recv_size = blocknum * blocksize
														
 
															-
														
 
															-            # 设置下载进度条
														
 
															-            f = sys.stdout
														
 
															-            pervent = recv_size / totalsize
														
 
															-            percent_str = "%.2f%%" % (pervent * 100)
														
 
															-            n = round(pervent * 50)
														
 
															-            s = ('#' * n).ljust(50, '-')
														
 
															-            f.write(percent_str.ljust(8, ' ') + '[' + s + ']' + speed_str)
														
 
															-            f.flush()
														
 
															-            f.write('\r')
														
 
															-
														
 
															-        def format_size(bytes):
														
 
															+        file = self.create_file(file_name, file_type)
														
 
															+        stream = self.fetch_data(url, file, **kw)
														
 
															+        '''上传/下载,无论失败成功都需要返回文件基础信息'''
														
 
															+        if len(stream) > 0:
														
 
															+            fid = self.create_fid(stream)
														
 
															             try:
														
 
															-                bytes = float(bytes)
														
 
															-                kb = bytes / 1024
														
 
															-            except:
														
 
															-                print("传入的字节格式不对")
														
 
															-                return "Error"
														
 
															-            if kb >= 1024:
														
 
															-                M = kb / 1024
														
 
															-                if M >= 1024:
														
 
															-                    G = M / 1024
														
 
															-                    return "%.3fG" % (G)
														
 
															-                else:
														
 
															-                    return "%.3fM" % (M)
														
 
															-            else:
														
 
															-                return "%.3fK" % (kb)
														
 
															+                result = {
														
 
															+                    'filename': file_name,
														
 
															+                    'ftype': file_type,
														
 
															+                    'fid': "{}.{}".format(fid, file_type),
														
 
															+                    'org_url': url,
														
 
															+                    'size': self.getsize(file),
														
 
															+                    'url': 'oss',
														
 
															+                }
														
 
															+                AliYunService().push_oss_from_local(result['fid'], file)
														
 
															+            except Exception:
														
 
															+                result = {
														
 
															+                    'filename': file_name,
														
 
															+                    'org_url': url,
														
 
															+                }
														
 
															+        else:
														
 
															+            result = {
														
 
															+                'filename': file_name,
														
 
															+                'org_url': url,
														
 
															+            }
														
 
															+        '''删除本地临时文件'''
														
 
															+        self.remove(file)
														
 
															+        return result
														
 
															-        if url:
														
 
															-            try:
														
 
															-                if enable_proxy:
														
 
															-                    proxies = ProxyPool().get()
														
 
															-                    # create the object, assign it to a variable
														
 
															-                    proxy = request.ProxyHandler(proxies)
														
 
															-                    # construct a new opener using your proxy settings
														
 
															-                    opener = request.build_opener(proxy)
														
 
															-                    # install the openen on the module-level
														
 
															-                    request.install_opener(opener)
														
 
															-                # 测试可以打开进度条，生产环境禁用进度条
														
 
															-                filename, headers = request.urlretrieve(url, file_path, progress_callfunc, data)
														
 
															-                # filename, headers = request.urlretrieve(url, file_path, data)
														
 
															-                print(filename,headers)
														
 
															-
														
 
															-                if callable(call_func):
														
 
															-                    call_func()
														
 
															-                return filename
														
 
															-            except Exception as e:
														
 
															-                print(e)
														
 
															-                return ''
														
 
															+    def _fetch_attachment(self, file_name, file_type, download_url, **kwargs):
														
 
															+        """
														
 
															+        下载附件
														
 
															+
														
 
															+        :param str file_name: 文件名称
														
 
															+        :param str file_type: 文件类型
														
 
															+        :param str download_url: 下载地址
														
 
															+        :param dict kwargs: 额外的附件下载配置
														
 
															+        :return: dict: 附件
														
 
															+        """
														
 
															+        mode = kwargs.pop('mode', 'local')
														
 
															+        if mode == "stream":
														
 
															+            res = self._push_oss_from_stream(
														
 
															+                file_name,
														
 
															+                file_type,
														
 
															+                download_url,
														
 
															+                **kwargs
														
 
															+            )
														
 
															         else:
														
 
															-            return ''
														
 
															+            res = self._push_oss_from_file(
														
 
															+                file_name,
														
 
															+                file_type,
														
 
															+                download_url,
														
 
															+                **kwargs
														
 
															+            )
														
 
															+        return res
														
 
															-if __name__ == '__main__':
														
 
															+    def fetch_attachment(
														
 
															+            self,
														
 
															+            file_name: str,
														
 
															+            file_type: str,
														
 
															+            download_url: str,
														
 
															+            **kw
														
 
															+    ):
														
 
															+        if not file_name or not file_type or not download_url:
														
 
															+            raise AttachmentNullError
														
 
															-    url = 'https://gdgpo.czt.gd.gov.cn/gpx-bid-file/440606/gpx-tender/2022/5/9/8a7e15d780a438400180a6be91e90cb2.zip?accessCode=0cf1d12a48345bcb7e64ac9583e30207'
														
 
															-    attachment = AttachmentDownloader().fetch_attachment(
														
 
															-        file_name="file_name", file_type="pdf", download_url=url,
														
 
															-        enable_proxy=False)
														
 
															-    print(attachment)
														
 
															+        return self._fetch_attachment(file_name, file_type, download_url, **kw)
														
--- a/FworkSpider/untils/chaojiying.py
+++ b/FworkSpider/untils/chaojiying.py
@@ -1,61 +0,0 @@
 
															-#!/usr/bin/env python
														
 
															-# coding:utf-8
														
 
															-
														
 
															-import requests
														
 
															-from hashlib import md5
														
 
															-
														
 
															-class Chaojiying_Client(object):
														
 
															-
														
 
															-    def __init__(self, username, password, soft_id):
														
 
															-        self.username = username
														
 
															-        password =  password.encode('utf8')
														
 
															-        self.password = md5(password).hexdigest()
														
 
															-        self.soft_id = soft_id
														
 
															-        self.base_params = {
														
 
															-            'user': self.username,
														
 
															-            'pass2': self.password,
														
 
															-            'softid': self.soft_id,
														
 
															-        }
														
 
															-        self.headers = {
														
 
															-            'Connection': 'Keep-Alive',
														
 
															-            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
														
 
															-        }
														
 
															-
														
 
															-    def PostPic(self, im, codetype):
														
 
															-        """
														
 
															-        im: 图片字节
														
 
															-        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
														
 
															-        """
														
 
															-        params = {
														
 
															-            'codetype': codetype,
														
 
															-        }
														
 
															-        params.update(self.base_params)
														
 
															-        files = {'userfile': ('ccc.jpg', im)}
														
 
															-        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
														
 
															-        return r.json()
														
 
															-
														
 
															-    def ReportError(self, im_id):
														
 
															-        """
														
 
															-        im_id:报错题目的图片ID
														
 
															-        """
														
 
															-        params = {
														
 
															-            'id': im_id,
														
 
															-        }
														
 
															-        params.update(self.base_params)
														
 
															-        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
														
 
															-        return r.json()
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    # chaojiying = Chaojiying_Client('ddddjy', 'ddddjy2021', '超级鹰')	#用户中心>>软件ID 生成一个替换 96001
														
 
															-    # im = open('a.jpg', 'rb').read()													#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
														
 
															-    # # print(chaojiying.PostPic(im, 1902))
														
 
															-    # res = chaojiying.PostPic(im, 2004)
														
 
															-    # print(res)
														
 
															-    # if res.get("err_no") != 0:
														
 
															-    #     chaojiying.ReportError(res.get("pic_id"))
														
 
															-    # if res.get("")
														
 
															-    code = "haoho"
														
 
															-    url = 'http://www.ccgp-fujian.gov.cn/3500/noticelist/e8d2cd51915e4c338dc1c6ee2f02b127/?page={page}&verifycode=胡吃海喝'[:-4]+code
														
 
															-
														
 
															-    print(url)
														
--- a/FworkSpider/untils/clean_html/__init__.py
+++ b/FworkSpider/untils/clean_html/__init__.py
--- a/FworkSpider/untils/clean_html/defaults.py
+++ b/FworkSpider/untils/clean_html/defaults.py
@@ -1,131 +0,0 @@
 
															-import re
														
 
															-
														
 
															-__all__ = ['cleaner']
														
 
															-
														
 
															-# 独立元素
														
 
															-INDEPENDENT_TAGS = {
														
 
															-    '<head>[\s\S]*?</head>': '',
														
 
															-    '<html>|<html [^>]*>|</html>': '',
														
 
															-    '<body>|<body [^>]*>|</body>': '',
														
 
															-    '<meta[^<>]*>|<meta [^<>]*>|<meta[^<>]*>[\s\S]*?</meta>|</meta>': '',  # 元数据
														
 
															-    '&(nbsp|e[mn]sp|thinsp|zwn?j|#13);': '',  # 空格
														
 
															-    '\\xa0|\\u3000': '',  # 空格
														
 
															-    '<!--[\s\S]*?-->': '',  # 注释
														
 
															-    '<style[^<>]*>[\s\S]*?</style>': '',  # 样式
														
 
															-    '<script[^<>]*>[\s\S]*?</script>': '',  # JavaScript
														
 
															-    '<input>': '',  # 输入框
														
 
															-    '<img[^>]*>': '<br>',  # 图片
														
 
															-}
														
 
															-# 行内元素
														
 
															-INLINE_TAGS = {
														
 
															-    '<a>|<a [^>]*>|</a>': '',  # 超链接
														
 
															-    '<span>|<span [^>]*>|</span>': '',  # span
														
 
															-    '<label>|<label [^>]*>|</label>': '<br>',  # label
														
 
															-    '<font>|<font [^>]*>|</font>': '',  # font
														
 
															-}
														
 
															-# 块级元素
														
 
															-BLOCK_TAGS = {
														
 
															-    '<h[1-6][^>]*>|</h[1-6]>': '',  # 标题
														
 
															-    '<p>|<p [^>]*>|</p>': '<br>',  # 段落
														
 
															-    '<div>|<div [^>]*>|</div>': '<br>',  # 分割 division
														
 
															-    '<o:p>|<o:p [^>]*>|</o:p>': ''  # OFFICE微软WORD段落
														
 
															-}
														
 
															-# 其他
														
 
															-OTHER = {
														
 
															-    '<?xml[^>]*>|<?xml [^>]*>|<?xml:.*?>': '',
														
 
															-    '<epointform>': '',
														
 
															-    '<!doctype html>|<!doctype html [^>]*>': '',
														
 
															-    '【关闭】|关闭': '',
														
 
															-    '【打印】|打印本页': '',
														
 
															-    '【字体：[\s\S]*】': '',
														
 
															-    '文章来源：[\u4e00-\u9fa5]+': '',
														
 
															-    '浏览次数：.*[<]+': '',
														
 
															-    '（责任编辑：.*?）': '',
														
 
															-    '分享到[：]': '',
														
 
															-}
														
 
															-# 样式
														
 
															-CSS_STYLE = {
														
 
															-    'style="[\s\S]*?"|style ="[\s\S]*?"': '',
														
 
															-    'bgcolor="[\s\S]*?"|bgcolor ="[\s\S]*?"': '',
														
 
															-    'bordercolor="[\s\S]*?"|bordercolor ="[\s\S]*?"': '',
														
 
															-    'class="[\s\S]*?"|class ="[\s\S]*?"': '',
														
 
															-    'align="[\s\S]*?"|align ="[\s\S]*?"': '',
														
 
															-    'cellpadding="(\d+)"|cellspacing="(\d+)"': '',
														
 
															-}
														
 
															-# 空白符
														
 
															-BLANKS = {
														
 
															-    '\n\s*\n': '\n',
														
 
															-    '\s*\n\s*': '\n',
														
 
															-    '[^\S\n]': ' ',
														
 
															-    '\s+': ' ',
														
 
															-}
														
 
															-# css标签集合
														
 
															-TAGS = {'table', 'tr', 'td', 'div', 'span', 'p'}
														
 
															-# css属性集合
														
 
															-ATTRS = {'id', 'class', 'style', 'width'}
														
 
															-
														
 
															-
														
 
															-def _repair_tag():
														
 
															-    """异常的标签组合,用来替换非标准页面的标签"""
														
 
															-    _repairs = {}
														
 
															-    for tag in TAGS:
														
 
															-        for attr in ATTRS:
														
 
															-            key = '{}{}'.format(tag, attr)
														
 
															-            val = '{} {}'.format(tag, attr)
														
 
															-            _repairs[key] = val
														
 
															-    return _repairs
														
 
															-
														
 
															-
														
 
															-def _escape_character(html):
														
 
															-    """转义字符"""
														
 
															-    html = html.replace('&lt;', '<')
														
 
															-    html = html.replace('&gt;', '>')
														
 
															-    html = html.replace('&quot;', '"')
														
 
															-    html = html.replace('&amp;', '&')
														
 
															-    return html
														
 
															-
														
 
															-
														
 
															-def _lowercase_tag(html):
														
 
															-    """标签归一化处理（全部小写）"""
														
 
															-    tags = re.findall("<[^>]+>", html)
														
 
															-    for tag in tags:
														
 
															-        html = html.replace(tag, str(tag).lower())
														
 
															-
														
 
															-    repair_tags = _repair_tag()
														
 
															-    for err, right in repair_tags.items():
														
 
															-        html = html.replace(err, right)
														
 
															-
														
 
															-    return html
														
 
															-
														
 
															-
														
 
															-def cleaner(html, special=None, completely=False):
														
 
															-    """
														
 
															-    数据清洗
														
 
															-
														
 
															-    :param html: 清洗的页面
														
 
															-    :param special: 额外指定页面清洗规则
														
 
															-    :param completely: 是否完全清洗页面
														
 
															-    :return: 清洗后的页面源码
														
 
															-    """
														
 
															-    if special is None:
														
 
															-        special = {}
														
 
															-    OTHER.update(special)
														
 
															-    remove_tags = {
														
 
															-        **INDEPENDENT_TAGS,
														
 
															-        **INLINE_TAGS,
														
 
															-        **BLOCK_TAGS,
														
 
															-        **OTHER,
														
 
															-        **CSS_STYLE,
														
 
															-        **BLANKS,
														
 
															-    }
														
 
															-    html = _lowercase_tag(html)
														
 
															-    for tag, repl in remove_tags.items():
														
 
															-        html = re.sub(tag, repl, html)
														
 
															-
														
 
															-    if completely:
														
 
															-        html = re.sub(r'<canvas[^<>]*>[\s\S]*?</canvas>', '', html)  # 画布
														
 
															-        html = re.sub(r'<iframe[^<>]*>[\s\S]*?</iframe>', '', html)  # 内框架
														
 
															-        html = re.sub('<([^<>\u4e00-\u9fa5]|微软雅黑|宋体|仿宋)+>', '', html)
														
 
															-
														
 
															-    html = _escape_character(html)
														
 
															-    return html
														
--- a/FworkSpider/untils/cleaner.py
+++ b/FworkSpider/untils/cleaner.py
@@ -1,136 +0,0 @@
 
															-import re
														
 
															-__all__ = ['cleaner']
														
 
															-
														
 
															-# 独立元素
														
 
															-INDEPENDENT_TAGS = {
														
 
															-    '<head>[\s\S]*?</head>': '',
														
 
															-    '<html>|<html [^>]*>|</html>': '',
														
 
															-    '<body>|<body [^>]*>|</body>': '',
														
 
															-    '<meta[^<>]*>|<meta [^<>]*>|<meta[^<>]*>[\s\S]*?</meta>|</meta>': '',  # 元数据
														
 
															-    '&(nbsp|e[mn]sp|thinsp|zwn?j|#13);': '',  # 空格
														
 
															-    '\\xa0|\\u3000': '',  # 空格
														
 
															-    '<!--[\s\S]*?-->': '',  # 注释
														
 
															-    '<style[^<>]*>[\s\S]*?</style>': '',  # 样式
														
 
															-    '<script[^<>]*>[\s\S]*?</script>': '',  # JavaScript
														
 
															-    '<input>': '',  # 输入框
														
 
															-    '<img[^>]*>': '<br>',  # 图片
														
 
															-}
														
 
															-# 行内元素
														
 
															-INLINE_TAGS = {
														
 
															-    '<a>|<a [^>]*>|</a>': '',  # 超链接
														
 
															-    '<link>|<link [^>]*>|</link>': '',  # 超链接
														
 
															-    '<span>|<span [^>]*>|</span>': '',  # span
														
 
															-    '<label>|<label [^>]*>|</label>': '<br>',  # label
														
 
															-    '<font>|<font [^>]*>|</font>': '',  # font
														
 
															-}
														
 
															-# 块级元素
														
 
															-BLOCK_TAGS = {
														
 
															-    '<div>\s*?</div>':'',
														
 
															-    '<h[1-6][^>]*>|</h[1-6]>': '',  # 标题
														
 
															-    '<p>|<p [^>]*>': '<br>',  # 段落
														
 
															-    '</p>': '',  # 段落
														
 
															-    '<div>|<div [^>]*>': '<br>',  # 分割 division
														
 
															-    '</div>': '',  # 分割 division
														
 
															-    '<o:p>|<o:p [^>]*>|</o:p>': ''  # OFFICE微软WORD段落
														
 
															-}
														
 
															-# 其他
														
 
															-OTHER = {
														
 
															-    '<?xml[^>]*>|<?xml [^>]*>|<?xml:.*?>': '',
														
 
															-    '<epointform>': '',
														
 
															-    '<!doctype html>|<!doctype html [^>]*>': '',
														
 
															-    '【关闭】|关闭': '',
														
 
															-    '【打印】|打印本页': '',
														
 
															-    '【字体：[\s\S]*】': '',
														
 
															-    '文章来源：[\u4e00-\u9fa5]+': '',
														
 
															-    '浏览次数：.*[<]+': '',
														
 
															-    '（责任编辑：.*?）': '',
														
 
															-    '分享到[：]': '',
														
 
															-
														
 
															-}
														
 
															-# 样式
														
 
															-CSS_STYLE = {
														
 
															-    'style="[\s\S]*?"|style ="[\s\S]*?"': '',
														
 
															-    'bgcolor="[\s\S]*?"|bgcolor ="[\s\S]*?"': '',
														
 
															-    'bordercolor="[\s\S]*?"|bordercolor ="[\s\S]*?"': '',
														
 
															-    'class="[\s\S]*?"|class ="[\s\S]*?"': '',
														
 
															-    'align="[\s\S]*?"|align ="[\s\S]*?"': '',
														
 
															-    'cellpadding="(\d+)"|cellspacing="(\d+)"': '',
														
 
															-
														
 
															-}
														
 
															-# 空白符
														
 
															-BLANKS = {
														
 
															-    '\n\s*\n': '\n',
														
 
															-    '\s*\n\s*': '\n',
														
 
															-    '[^\S\n]': ' ',
														
 
															-    '\s+': ' ',
														
 
															-}
														
 
															-# css标签集合
														
 
															-TAGS = {'table', 'tr', 'td', 'div', 'span', 'p'}
														
 
															-# css属性集合
														
 
															-ATTRS = {'id', 'class', 'style', 'width'}
														
 
															-
														
 
															-
														
 
															-def _repair_tag():
														
 
															-    """异常的标签组合,用来替换非标准页面的标签"""
														
 
															-    _repairs = {}
														
 
															-    for tag in TAGS:
														
 
															-        for attr in ATTRS:
														
 
															-            key = '{}{}'.format(tag, attr)
														
 
															-            val = '{} {}'.format(tag, attr)
														
 
															-            _repairs[key] = val
														
 
															-    return _repairs
														
 
															-
														
 
															-
														
 
															-def _escape_character(html):
														
 
															-    """转义字符"""
														
 
															-    html = html.replace('&lt;', '<')
														
 
															-    html = html.replace('&gt;', '>')
														
 
															-    html = html.replace('&quot;', '"')
														
 
															-    html = html.replace('&amp;', '&')
														
 
															-    return html
														
 
															-
														
 
															-
														
 
															-def _lowercase_tag(html):
														
 
															-    """标签归一化处理（全部小写）"""
														
 
															-    tags = re.findall("<[^>]+>", html)
														
 
															-    for tag in tags:
														
 
															-        html = html.replace(tag, str(tag).lower())
														
 
															-
														
 
															-    repair_tags = _repair_tag()
														
 
															-    for err, right in repair_tags.items():
														
 
															-        html = html.replace(err, right)
														
 
															-
														
 
															-    return html
														
 
															-
														
 
															-
														
 
															-def cleaner(html, special=None, completely=False):
														
 
															-    """
														
 
															-    数据清洗
														
 
															-
														
 
															-    :param html: 清洗的页面
														
 
															-    :param special: 额外指定页面清洗规则
														
 
															-    :param completely: 是否完全清洗页面
														
 
															-    :return: 清洗后的页面源码
														
 
															-    """
														
 
															-    if special is None:
														
 
															-        special = {}
														
 
															-    OTHER.update(special)
														
 
															-    remove_tags = {
														
 
															-        **INDEPENDENT_TAGS,
														
 
															-        **INLINE_TAGS,
														
 
															-        **BLOCK_TAGS,
														
 
															-        **OTHER,
														
 
															-        **CSS_STYLE,
														
 
															-        **BLANKS,
														
 
															-    }
														
 
															-    html = _lowercase_tag(html)
														
 
															-    for tag, repl in remove_tags.items():
														
 
															-        html = re.sub(tag, repl, html)
														
 
															-
														
 
															-    if completely:
														
 
															-        html = re.sub(r'<canvas[^<>]*>[\s\S]*?</canvas>', '', html)  # 画布
														
 
															-        html = re.sub(r'<iframe[^<>]*>[\s\S]*?</iframe>', '', html)  # 内框架
														
 
															-        html = re.sub('<([^<>\u4e00-\u9fa5]|微软雅黑|宋体|仿宋)+>', '', html)
														
 
															-
														
 
															-    html = _escape_character(html)
														
 
															-    return html
														
--- a/FworkSpider/untils/cookie_pool.py
+++ b/FworkSpider/untils/cookie_pool.py
@@ -1,227 +1,50 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""
														
 
															-Created on 2018/12/27 11:32 AM
														
 
															----------
														
 
															-@summary: cookie池
														
 
															----------
														
 
															-@author: Boris
														
 
															-@email:  boris_liu@foxmail.com
														
 
															-"""
														
 
															-
														
 
															-import abc
														
 
															-import datetime
														
 
															-import random
														
 
															 import time
														
 
															-import warnings
														
 
															 from collections import Iterable
														
 
															-from enum import Enum, unique
														
 
															-import requests
														
 
															-from feapder.db.mongodb import MongoDB
														
 
															-import feapder.utils.tools as tools
														
 
															-from feapder import setting
														
 
															-from feapder.network import user_agent
														
 
															+from func_timeout import func_set_timeout
														
 
															-from feapder.db.mysqldb import MysqlDB
														
 
															+import feapder.utils.tools as tools
														
 
															+from feapder.db.mongodb import MongoDB
														
 
															 from feapder.db.redisdb import RedisDB
														
 
															-from feapder.utils import metrics
														
 
															+from feapder.network.cookie_pool import (
														
 
															+    CookiePoolInterface,
														
 
															+    PageCookiePool,
														
 
															+    User,
														
 
															+)
														
 
															 from feapder.utils.log import log
														
 
															 from feapder.utils.redis_lock import RedisLock
														
 
															-from feapder.utils.tools import send_msg
														
 
															-from feapder.utils.webdriver import WebDriver
														
 
															-
														
 
															+from feapder.utils.tools import get_current_date
														
 
															-class CookiePoolInterface(metaclass=abc.ABCMeta):
														
 
															-    """
														
 
															-    cookie pool interface
														
 
															-    """
														
 
															-
														
 
															-    @abc.abstractmethod
														
 
															-    def create_cookie(self, *args, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															-
														
 
															-    @abc.abstractmethod
														
 
															-    def get_cookie(self, *args, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															-
														
 
															-    @abc.abstractmethod
														
 
															-    def del_cookie(self, *args, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															-
														
 
															-    @abc.abstractmethod
														
 
															-    def run(self):
														
 
															-        raise NotImplementedError
														
 
															-
														
 
															-
														
 
															-class PageCookiePool(CookiePoolInterface):
														
 
															-    """
														
 
															-    由页面产生的cookie 不需要用户登陆
														
 
															-    """
														
 
															-
														
 
															-    def __init__(
														
 
															-        self,
														
 
															-        redis_key,
														
 
															-        page_url=None,
														
 
															-        min_cookies=10000,
														
 
															-        must_contained_keys=(),
														
 
															-        keep_alive=False,
														
 
															-        **kwargs,
														
 
															-    ):
														
 
															-        """
														
 
															-        @param redis_key: 项目名
														
 
															-        @param page_url: 生产cookie的url
														
 
															-        @param min_cookies: 最小cookie数
														
 
															-        @param must_contained_keys: cookie 必须包含的key
														
 
															-        @param keep_alive: 当cookie数量足够是是否保持随时待命，生产cookie的状态。False为否，满足则退出
														
 
															-        ---
														
 
															-        @param kwargs: WebDriver的一些参数
														
 
															-            load_images: 是否加载图片
														
 
															-            user_agent_pool: user-agent池 为None时不使用
														
 
															-            proxies_pool: ；代理池 为None时不使用
														
 
															-            headless: 是否启用无头模式
														
 
															-            driver_type: web driver 类型
														
 
															-            timeout: 请求超时时间 默认16s
														
 
															-            window_size: 屏幕分辨率 (width, height)
														
 
															-
														
 
															-        """
														
 
															-
														
 
															-        self._redisdb = RedisDB()
														
 
															-
														
 
															-        self._tab_cookie_pool = "{}:l_cookie_pool".format(redis_key)
														
 
															-        self._tab_cookie_pool_last_count = "{}:str_cookie_pool_count".format(
														
 
															-            redis_key
														
 
															-        )  # 存储上一次统计cookie 数量的时间，格式为 时间戳:数量
														
 
															-        self._page_url = page_url
														
 
															-        self._min_cookies = min_cookies
														
 
															-        self._must_contained_keys = must_contained_keys
														
 
															-        self._keep_alive = keep_alive
														
 
															-
														
 
															-        self._kwargs = kwargs
														
 
															-        self._kwargs.setdefault("load_images", False)
														
 
															-        self._kwargs.setdefault("headless", True)
														
 
															-
														
 
															-    def create_cookie(self):
														
 
															-        """
														
 
															-        可能会重写
														
 
															-        @return:
														
 
															-        """
														
 
															-        url = self._page_url
														
 
															-        header = {
														
 
															-            "Upgrade-Insecure-Requests": "1",
														
 
															-            "User-Agent": user_agent.get()
														
 
															-        }
														
 
															-        res = requests.get(url, headers=header)
														
 
															-        cookies = requests.utils.dict_from_cookiejar(res.cookies)
														
 
															-        return cookies
														
 
															-
														
 
															-
														
 
															-    def add_cookies(self, cookies):
														
 
															-        log.info("添加cookie {}".format(cookies))
														
 
															-        self._redisdb.lpush(self._tab_cookie_pool, cookies)
														
 
															-    def run(self):
														
 
															-        while True:
														
 
															-            try:
														
 
															-                now_cookie_count = self._redisdb.lget_count(self._tab_cookie_pool)
														
 
															-                need_cookie_count = self._min_cookies - now_cookie_count
														
 
															-
														
 
															-                if need_cookie_count > 0:
														
 
															-                    log.info(
														
 
															-                        "当前cookie数为 {} 小于 {}, 生产cookie".format(
														
 
															-                            now_cookie_count, self._min_cookies
														
 
															-                        )
														
 
															-                    )
														
 
															-                    try:
														
 
															-                        print('????')
														
 
															-                        cookies = self.create_cookie()
														
 
															-                        if cookies:
														
 
															-                            self.add_cookies(cookies)
														
 
															-                    except Exception as e:
														
 
															-                        log.exception(e)
														
 
															-                else:
														
 
															-                    log.info("当前cookie数为 {} 数量足够 暂不生产".format(now_cookie_count))
														
 
															-
														
 
															-                    # 判断cookie池近一分钟数量是否有变化，无变化则认为爬虫不再用了，退出
														
 
															-                    last_count_info = self._redisdb.strget(
														
 
															-                        self._tab_cookie_pool_last_count
														
 
															-                    )
														
 
															-                    if not last_count_info:
														
 
															-                        self._redisdb.strset(
														
 
															-                            self._tab_cookie_pool_last_count,
														
 
															-                            "{}:{}".format(time.time(), now_cookie_count),
														
 
															-                        )
														
 
															-                    else:
														
 
															-                        last_time, last_count = last_count_info.split(":")
														
 
															-                        last_time = float(last_time)
														
 
															-                        last_count = int(last_count)
														
 
															-
														
 
															-                        if time.time() - last_time > 60:
														
 
															-                            if now_cookie_count == last_count:
														
 
															-                                log.info("近一分钟，cookie池数量无变化，判定爬虫未使用，退出生产")
														
 
															-                                break
														
 
															-                            else:
														
 
															-                                self._redisdb.strset(
														
 
															-                                    self._tab_cookie_pool_last_count,
														
 
															-                                    "{}:{}".format(time.time(), now_cookie_count),
														
 
															-                                )
														
 
															-
														
 
															-                    if self._keep_alive:
														
 
															-                        log.info("sleep 10")
														
 
															-                        tools.delay_time(10)
														
 
															-                    else:
														
 
															-                        break
														
 
															-
														
 
															-            except Exception as e:
														
 
															-                log.exception(e)
														
 
															-                tools.delay_time(1)
														
 
															-
														
 
															-    def get_cookie(self, wait_when_null=True):
														
 
															-        while True:
														
 
															-            try:
														
 
															-                cookie_info = self._redisdb.rpoplpush(self._tab_cookie_pool)
														
 
															-                if not cookie_info and wait_when_null:
														
 
															-                    log.info("暂无cookie 生产中...")
														
 
															-                    self._keep_alive = False
														
 
															-                    self._min_cookies = 1
														
 
															-                    with RedisLock(
														
 
															-                        key=self._tab_cookie_pool, lock_timeout=3600, wait_timeout=5
														
 
															-                    ) as _lock:
														
 
															-                        if _lock.locked:
														
 
															-                            self.run()
														
 
															-                    continue
														
 
															-                return eval(cookie_info) if cookie_info else {}
														
 
															-            except Exception as e:
														
 
															-                log.exception(e)
														
 
															-                tools.delay_time(1)
														
 
															-
														
 
															-    def del_cookie(self, cookies):
														
 
															-        self._redisdb.lrem(self._tab_cookie_pool, cookies)
														
 
															-
														
 
															-# PageCookiePool('cookie_1',page_url="https://www.whzbtb.com/V2PRTS/PrequalificationPublicityInfoListInit.do").create_cookie()
														
 
															-class User:
														
 
															-    def __init__(self, username, cookie):
														
 
															-        self.username = username
														
 
															-        self.cookie = cookie
														
 
															+__all__ = [
														
 
															+    "PageCookiePool",
														
 
															+    "User",
														
 
															+    "LoginCookiePool"
														
 
															+]
														
 
															 class LoginCookiePool(CookiePoolInterface):
														
 
															     """
														
 
															-    需要登陆的cookie池, 用户账号密码等信息用mysql保存
														
 
															+    需要登陆的cookie池, 用户账号密码等信息用mongoDB保存
														
 
															     """
														
 
															     def __init__(
														
 
															-        self,
														
 
															-        redis_key,
														
 
															-        *,
														
 
															-        table_userbase,
														
 
															-        login_state_key="login_state",
														
 
															-        lock_state_key="lock_state",
														
 
															-        username_key="username",
														
 
															-        password_key="password",
														
 
															-        login_retry_times=10,
														
 
															+            self,
														
 
															+            redis_key,
														
 
															+            *,
														
 
															+            login_site,
														
 
															+            table_userbase="feapder_login",
														
 
															+            table_login_record="feapder_login_record",
														
 
															+            login_state_key="login_state",
														
 
															+            lock_state_key="lock_state",
														
 
															+            username_key="username",
														
 
															+            password_key="password",
														
 
															+            login_retry_times=10,
														
 
															     ):
														
 
															         """
														
 
															         @param redis_key: 项目名
														
 
															+        @param login_site: 网站名称
														
 
															         @param table_userbase: 用户表名
														
 
															+        @param table_login_record: 用户登录状态表名
														
 
															         @param login_state_key: 登录状态列名
														
 
															         @param lock_state_key: 封锁状态列名
														
 
															         @param username_key: 登陆名列名
														
@@ -232,15 +55,15 @@ class LoginCookiePool(CookiePoolInterface):
 
															         self._tab_cookie_pool = "{}:l_cookie_pool".format(redis_key)
														
 
															         self._login_retry_times = login_retry_times
														
 
															         self._table_userbase = table_userbase
														
 
															+        self._table_login_record = table_login_record
														
 
															         self._login_state_key = login_state_key
														
 
															         self._lock_state_key = lock_state_key
														
 
															         self._username_key = username_key
														
 
															         self._password_key = password_key
														
 
															-
														
 
															+        self._login_site = login_site
														
 
															         self._redisdb = RedisDB()
														
 
															         self._mongo = MongoDB(db='user_login')
														
 
															-
														
 
															     def create_cookie(self, username, password):
														
 
															         """
														
@@ -257,7 +80,12 @@ class LoginCookiePool(CookiePoolInterface):
 
															         @return: yield username, password
														
 
															         """
														
 
															-        return self._mongo.find(self._table_userbase,{self._lock_state_key:0,self._login_state_key:0})
														
 
															+        query = {
														
 
															+            "site": self._login_site,
														
 
															+            self._lock_state_key: 0,
														
 
															+            self._login_state_key: 0
														
 
															+        }
														
 
															+        return self._mongo.find(self._table_userbase, query)
														
 
															     def handle_login_failed_user(self, username, password):
														
 
															         """
														
@@ -279,14 +107,19 @@ class LoginCookiePool(CookiePoolInterface):
 
															     def save_cookie(self, username, cookie):
														
 
															         user_cookie = {"username": username, "cookie": cookie}
														
 
															-
														
 
															         self._redisdb.lpush(self._tab_cookie_pool, user_cookie)
														
 
															         self._mongo.add(
														
 
															-                coll_name=self._table_userbase,
														
 
															-                data={self._login_state_key:1},
														
 
															-                update_columns=self._username_key,
														
 
															-                update_columns_value=username)
														
 
															+            coll_name=self._table_login_record,
														
 
															+            data={self._login_state_key: 1,
														
 
															+                  "status": "create",
														
 
															+                  "site": self._login_site,
														
 
															+                  "login_time": time.strftime("%Y-%m-%d %H:%M:%S",
														
 
															+                                              time.localtime(
														
 
															+                                                  int(round(time.time()))))},
														
 
															+            update_columns=self._username_key,
														
 
															+            update_columns_value=username)
														
 
															+    @func_set_timeout(60)
														
 
															     def get_cookie(self, wait_when_null=True) -> User:
														
 
															         while True:
														
 
															             try:
														
@@ -315,22 +148,30 @@ class LoginCookiePool(CookiePoolInterface):
 
															         self._redisdb.lrem(self._tab_cookie_pool, user_info)
														
 
															         self._mongo.add(
														
 
															-            coll_name=self._table_userbase,
														
 
															-            data={self._login_state_key: 1},
														
 
															+            coll_name=self._table_login_record,
														
 
															+            data={
														
 
															+                self._login_state_key: 1,
														
 
															+                "status": "remove",
														
 
															+                "site": self._login_site,
														
 
															+                "login_time": get_current_date()
														
 
															+            },
														
 
															             update_columns=self._username_key,
														
 
															             update_columns_value=user.username)
														
 
															     def user_is_locked(self, user: User):
														
 
															-
														
 
															         self._mongo.add(
														
 
															-            coll_name=self._table_userbase,
														
 
															-            data={self._lock_state_key: 1},
														
 
															+            coll_name=self._table_login_record,
														
 
															+            data={
														
 
															+                self._lock_state_key: 1,
														
 
															+                "site": self._login_site,
														
 
															+                "login_time": get_current_date()
														
 
															+            },
														
 
															             update_columns=self._username_key,
														
 
															             update_columns_value=user.username)
														
 
															     def run(self):
														
 
															         with RedisLock(
														
 
															-            key=self._tab_cookie_pool, lock_timeout=3600, wait_timeout=100
														
 
															+                key=self._tab_cookie_pool, lock_timeout=3600, wait_timeout=100
														
 
															         ) as _lock:
														
 
															             if _lock.locked:
														
 
															                 user_infos = self.get_user_info()
														
@@ -349,7 +190,8 @@ class LoginCookiePool(CookiePoolInterface):
 
															                             if cookie:
														
 
															                                 self.save_cookie(username, cookie)
														
 
															                             else:
														
 
															-                                self.handle_login_failed_user(username, password)
														
 
															+                                self.handle_login_failed_user(username,
														
 
															+                                                              password)
														
 
															                             break
														
 
															                         except Exception as e:
														
@@ -359,437 +201,3 @@ class LoginCookiePool(CookiePoolInterface):
 
															                         self.handle_login_failed_user(username, password)
														
 
															     login = run
														
 
															-
														
 
															-
														
 
															-@unique
														
 
															-class LimitTimesUserStatus(Enum):
														
 
															-    # 使用状态
														
 
															-    USED = "used"
														
 
															-    SUCCESS = "success"
														
 
															-    OVERDUE = "overdue"  # cookie 过期
														
 
															-    SLEEP = "sleep"
														
 
															-    EXCEPTION = "exception"
														
 
															-    # 登陆状态
														
 
															-    LOGIN_SUCCESS = "login_success"
														
 
															-    LOGIN_FALIED = "login_failed"
														
 
															-
														
 
															-
														
 
															-class LimitTimesUser:
														
 
															-    """
														
 
															-    有次数限制的账户
														
 
															-    基于本地做的缓存，不支持多进程调用
														
 
															-    """
														
 
															-
														
 
															-    ACCOUNT_INFO_KEY = "accounts:h_account_info"  # 存储cookie的redis key
														
 
															-    SITE_NAME = ""  # 网站名
														
 
															-
														
 
															-    redisdb = None
														
 
															-
														
 
															-    def __init__(
														
 
															-        self,
														
 
															-        username,
														
 
															-        password,
														
 
															-        max_search_times,
														
 
															-        proxies=None,
														
 
															-        search_interval=0,
														
 
															-        **kwargs,
														
 
															-    ):
														
 
															-        """
														
 
															-        @param username:
														
 
															-        @param password:
														
 
															-        @param max_search_times:
														
 
															-        @param proxies:
														
 
															-        @param search_interval: 调用时间间隔。 支持元组 指定间隔的时间范围 如（5，10）即5到10秒；或直接传整数
														
 
															-        """
														
 
															-        self.__dict__.update(kwargs)
														
 
															-        self.username = username
														
 
															-        self.password = password
														
 
															-        self.max_search_times = max_search_times
														
 
															-        self.proxies = proxies
														
 
															-        self.search_interval = search_interval
														
 
															-        self.delay_use = 0  # 延时使用，用于等待解封的用户
														
 
															-
														
 
															-        if isinstance(search_interval, (tuple, list)):
														
 
															-            if len(search_interval) != 2:
														
 
															-                raise ValueError("search_interval 需传递两个值的元组或列表。如（5，10）即5到10秒")
														
 
															-
														
 
															-            self.used_for_time_length = (
														
 
															-                search_interval[1] * 5
														
 
															-            )  # 抢占式爬虫独享cookie时间，这段时间内其他爬虫不可抢占
														
 
															-        else:
														
 
															-            self.used_for_time_length = (
														
 
															-                search_interval * 5
														
 
															-            )  # 抢占式爬虫独享cookie时间，这段时间内其他爬虫不可抢占
														
 
															-
														
 
															-        self.account_info = {
														
 
															-            "login_time": 0,
														
 
															-            "cookies": {},
														
 
															-            "search_times": 0,
														
 
															-            "last_search_time": 0,
														
 
															-            "used_for_spider_name": None,  # 只被某个爬虫使用 其他爬虫不可使用
														
 
															-            "init_search_times_time": 0,  # 初始化搜索次数的时间
														
 
															-        }
														
 
															-
														
 
															-        if not self.__class__.redisdb:
														
 
															-            self.__class__.redisdb = RedisDB()
														
 
															-
														
 
															-        self.sync_account_info_from_redis()
														
 
															-
														
 
															-        self.__init_metrics()
														
 
															-
														
 
															-    def __init_metrics(self):
														
 
															-        """
														
 
															-        初始化打点系统
														
 
															-        @return:
														
 
															-        """
														
 
															-        metrics.init(**setting.METRICS_OTHER_ARGS)
														
 
															-
														
 
															-    def record_user_status(self, status: LimitTimesUserStatus):
														
 
															-        metrics.emit_counter(f"{self.username}:{status.value}", 1, classify="users")
														
 
															-
														
 
															-    def __repr__(self):
														
 
															-        return "<LimitTimesUser {} | cookies:{}>".format(self.username, self.cookies)
														
 
															-
														
 
															-    def __eq__(self, other):
														
 
															-        return self.username == other.username
														
 
															-
														
 
															-    def sync_account_info_from_redis(self):
														
 
															-        account_info = self.redisdb.hget(self.ACCOUNT_INFO_KEY, self.username)
														
 
															-        if account_info:
														
 
															-            account_info = eval(account_info)
														
 
															-            self.account_info.update(account_info)
														
 
															-
														
 
															-    @property
														
 
															-    def cookies(self):
														
 
															-        cookies = self.account_info.get("cookies")
														
 
															-        return cookies
														
 
															-
														
 
															-    def set_cookies(self, cookies):
														
 
															-        self.account_info["cookies"] = cookies
														
 
															-        return self.redisdb.hset(
														
 
															-            self.ACCOUNT_INFO_KEY, self.username, self.account_info
														
 
															-        )
														
 
															-
														
 
															-    def set_login_time(self, login_time=None):
														
 
															-        self.account_info["login_time"] = login_time or time.time()
														
 
															-        return self.redisdb.hset(
														
 
															-            self.ACCOUNT_INFO_KEY, self.username, self.account_info
														
 
															-        )
														
 
															-
														
 
															-    def get_login_time(self):
														
 
															-        return self.account_info.get("login_time")
														
 
															-
														
 
															-    def is_time_to_login(self):
														
 
															-        return time.time() - self.get_login_time() > 40 * 60
														
 
															-
														
 
															-    def get_last_search_time(self):
														
 
															-        return self.account_info.get("last_search_time", 0)
														
 
															-
														
 
															-    def is_time_to_search(self):
														
 
															-        if self.delay_use:
														
 
															-            is_time = time.time() - self.get_last_search_time() > self.delay_use
														
 
															-            if is_time:
														
 
															-                self.delay_use = 0
														
 
															-
														
 
															-        else:
														
 
															-            is_time = time.time() - self.get_last_search_time() > (
														
 
															-                random.randint(*self.search_interval)
														
 
															-                if isinstance(self.search_interval, (tuple, list))
														
 
															-                else self.search_interval
														
 
															-            )
														
 
															-
														
 
															-        return is_time
														
 
															-
														
 
															-    @property
														
 
															-    def used_for_spider_name(self):
														
 
															-        return self.account_info.get("used_for_spider_name")
														
 
															-
														
 
															-    @used_for_spider_name.setter
														
 
															-    def used_for_spider_name(self, spider_name):
														
 
															-        self.account_info["used_for_spider_name"] = spider_name
														
 
															-
														
 
															-    def update_status(self):
														
 
															-        """
														
 
															-        更新search的一些状态
														
 
															-        @return:
														
 
															-        """
														
 
															-        self.account_info["search_times"] += 1
														
 
															-        self.account_info["last_search_time"] = time.time()
														
 
															-
														
 
															-        return self.redisdb.hset(
														
 
															-            self.ACCOUNT_INFO_KEY, self.username, self.account_info
														
 
															-        )
														
 
															-
														
 
															-    @property
														
 
															-    def search_times(self):
														
 
															-        init_search_times_time = self.account_info.get("init_search_times_time")
														
 
															-        current_time = time.time()
														
 
															-        if (
														
 
															-            current_time - init_search_times_time >= 86400
														
 
															-        ):  # 如果距离上次初始化搜索次数时间大于1天，则搜索次数清清零
														
 
															-            self.account_info["search_times"] = 0
														
 
															-            self.account_info["init_search_times_time"] = current_time
														
 
															-
														
 
															-            self.redisdb.hset(self.ACCOUNT_INFO_KEY, self.username, self.account_info)
														
 
															-
														
 
															-        return self.account_info["search_times"]
														
 
															-
														
 
															-    def is_overwork(self):
														
 
															-        if self.search_times > self.max_search_times:
														
 
															-            log.warning("账号 {} 请求次数超限制".format(self.username))
														
 
															-            return True
														
 
															-
														
 
															-        return False
														
 
															-
														
 
															-    def is_at_work_time(self):
														
 
															-        if datetime.datetime.now().hour in list(range(7, 23)):
														
 
															-            return True
														
 
															-
														
 
															-        log.warning("账号 {} 不再工作时间内".format(self.username))
														
 
															-        return False
														
 
															-
														
 
															-    def del_cookie(self):
														
 
															-        self.account_info["cookies"] = {}
														
 
															-        return self.redisdb.hset(
														
 
															-            self.ACCOUNT_INFO_KEY, self.username, self.account_info
														
 
															-        )
														
 
															-
														
 
															-    def create_cookie(self):
														
 
															-        """
														
 
															-        生产cookie 有异常需要抛出
														
 
															-        @return: cookie_dict
														
 
															-        """
														
 
															-
														
 
															-        raise NotImplementedError
														
 
															-
														
 
															-    def login(self):
														
 
															-        """
														
 
															-        @return: 1 成功 0 失败
														
 
															-        """
														
 
															-
														
 
															-        try:
														
 
															-            # 预检查
														
 
															-            if not self.is_time_to_login():
														
 
															-                log.info("此账号尚未到登陆时间: {}".format(self.username))
														
 
															-                time.sleep(5)
														
 
															-                return 0
														
 
															-
														
 
															-            cookies = self.create_cookie()
														
 
															-            if not cookies:
														
 
															-                raise Exception("登陆失败 未获取到合法cookie")
														
 
															-
														
 
															-            if not isinstance(cookies, dict):
														
 
															-                raise Exception("cookie 必须为字典格式")
														
 
															-
														
 
															-            # 保存cookie
														
 
															-            self.set_login_time()
														
 
															-            self.set_cookies(cookies)
														
 
															-            log.info("登录成功 {}".format(self.username))
														
 
															-            self.record_user_status(LimitTimesUserStatus.LOGIN_SUCCESS)
														
 
															-            return 1
														
 
															-
														
 
															-        except Exception as e:
														
 
															-            log.exception(e)
														
 
															-            send_msg(
														
 
															-                msg=f"{self.SITE_NAME} {self.username} 账号登陆异常 exception: {str(e)}",
														
 
															-                level="error",
														
 
															-                message_prefix=f"{self.SITE_NAME} {self.username} 账号登陆异常",
														
 
															-            )
														
 
															-
														
 
															-        log.info("登录失败 {}".format(self.username))
														
 
															-        self.record_user_status(LimitTimesUserStatus.LOGIN_FALIED)
														
 
															-        return 0
														
 
															-
														
 
															-
														
 
															-class LimitTimesUserPool:
														
 
															-    """
														
 
															-    限制查询次数的用户的User pool
														
 
															-    基于本地做的缓存，不支持多进程调用
														
 
															-    """
														
 
															-
														
 
															-    LOAD_USER_INTERVAL = 60
														
 
															-
														
 
															-    def __init__(self, *, accounts_dict, limit_user_class, support_more_client=True):
														
 
															-        """
														
 
															-        @param accounts_dic: 账户信息字典
														
 
															-            {
														
 
															-                "15011300228": {
														
 
															-                    "password": "300228",
														
 
															-                    "proxies": {},
														
 
															-                    "max_search_times": 500,
														
 
															-                    "search_interval": 1, # 使用时间间隔
														
 
															-                    # 其他携带信息
														
 
															-                }
														
 
															-            }
														
 
															-        @param limit_user_class: 用户重写的 limit_user_class
														
 
															-        @param support_more_client: 是否支持多客户端 即多线程 多进程模式 (可能在计数上及使用频率上有些误差)
														
 
															-        """
														
 
															-        self.accounts_dict = accounts_dict
														
 
															-        self.limit_user_class = limit_user_class
														
 
															-
														
 
															-        self.limit_times_users = []
														
 
															-        self.current_user_index = -1
														
 
															-
														
 
															-        self.support_more_client = support_more_client
														
 
															-
														
 
															-        self.last_load_user_time = 0
														
 
															-
														
 
															-    def __load_users(self, username=None):
														
 
															-        # 装载user
														
 
															-        log.info("更新可用用户")
														
 
															-
														
 
															-        for _username, detail in self.accounts_dict.items():
														
 
															-            if username and username != _username:
														
 
															-                continue
														
 
															-
														
 
															-            limit_times_users = self.limit_user_class(username=_username, **detail)
														
 
															-            if limit_times_users in self.limit_times_users:
														
 
															-                continue
														
 
															-
														
 
															-            if limit_times_users.is_overwork():
														
 
															-                continue
														
 
															-            else:
														
 
															-                if (
														
 
															-                    limit_times_users.cookies or limit_times_users.login()
														
 
															-                ):  # 如果有cookie 或者登陆成功 则添加到可用的user队列
														
 
															-                    self.limit_times_users.append(limit_times_users)
														
 
															-
														
 
															-        self.last_load_user_time = time.time()
														
 
															-
														
 
															-    def get_user(
														
 
															-        self,
														
 
															-        username=None,
														
 
															-        used_for_spider_name=None,
														
 
															-        wait_when_null=True,
														
 
															-        not_limit_frequence=False,
														
 
															-    ) -> LimitTimesUser:
														
 
															-        """
														
 
															-        @params username: 获取指定的用户
														
 
															-        @params used_for_spider_name: 独享式使用，独享爬虫的名字。其他爬虫不可抢占
														
 
															-        @params wait_when_null: 无用户时是否等待
														
 
															-        @params not_limit_frequence: 不限制使用频率
														
 
															-        @return: LimitTimesUser
														
 
															-        """
														
 
															-        if not self.support_more_client:
														
 
															-            warnings.warn(
														
 
															-                "LimitTimesUserCookiePool 取查询次数等信息时基于本地做的缓存，不支持多进程或多线程",
														
 
															-                category=Warning,
														
 
															-            )
														
 
															-            self._is_show_warning = True
														
 
															-
														
 
															-        while True:
														
 
															-            if (
														
 
															-                not self.limit_times_users
														
 
															-                or time.time() - self.last_load_user_time >= self.LOAD_USER_INTERVAL
														
 
															-            ):
														
 
															-                self.__load_users(username)
														
 
															-                if not self.limit_times_users:
														
 
															-                    log.warning("无可用的用户")
														
 
															-                    if wait_when_null:
														
 
															-                        time.sleep(1)
														
 
															-                        continue
														
 
															-                    else:
														
 
															-                        return None
														
 
															-
														
 
															-            self.current_user_index += 1
														
 
															-            self.current_user_index = self.current_user_index % len(
														
 
															-                self.limit_times_users
														
 
															-            )
														
 
															-
														
 
															-            limit_times_user = self.limit_times_users[self.current_user_index]
														
 
															-            if self.support_more_client:  # 需要先同步下最新数据
														
 
															-                limit_times_user.sync_account_info_from_redis()
														
 
															-
														
 
															-            if username and limit_times_user.username != username:
														
 
															-                log.info(
														
 
															-                    "{} 为非指定用户 {}, 获取下一个用户".format(limit_times_user.username, username)
														
 
															-                )
														
 
															-                time.sleep(1)
														
 
															-                continue
														
 
															-
														
 
															-            # 独占式使用，若为其他爬虫，检查等待使用时间是否超过独占时间，若超过则可以使用
														
 
															-            if (
														
 
															-                limit_times_user.used_for_spider_name
														
 
															-                and limit_times_user.used_for_spider_name != used_for_spider_name
														
 
															-            ):
														
 
															-                wait_time = time.time() - limit_times_user.get_last_search_time()
														
 
															-                if wait_time < limit_times_user.used_for_time_length:
														
 
															-                    log.info(
														
 
															-                        "用户{} 被 {} 爬虫独占，需等待 {} 秒后才可使用".format(
														
 
															-                            limit_times_user.username,
														
 
															-                            limit_times_user.used_for_spider_name,
														
 
															-                            limit_times_user.used_for_time_length - wait_time,
														
 
															-                        )
														
 
															-                    )
														
 
															-                    time.sleep(1)
														
 
															-                    continue
														
 
															-
														
 
															-            if (
														
 
															-                not limit_times_user.is_overwork()
														
 
															-                and limit_times_user.is_at_work_time()
														
 
															-            ):
														
 
															-                if not limit_times_user.cookies:
														
 
															-                    self.limit_times_users.remove(limit_times_user)
														
 
															-                    continue
														
 
															-
														
 
															-                if not_limit_frequence or limit_times_user.is_time_to_search():
														
 
															-                    limit_times_user.used_for_spider_name = used_for_spider_name
														
 
															-
														
 
															-                    limit_times_user.update_status()
														
 
															-                    log.info("使用用户 {}".format(limit_times_user.username))
														
 
															-                    limit_times_user.record_user_status(LimitTimesUserStatus.USED)
														
 
															-                    return limit_times_user
														
 
															-                else:
														
 
															-                    log.info("{} 用户使用间隔过短 查看下一个用户".format(limit_times_user.username))
														
 
															-                    time.sleep(1)
														
 
															-                    continue
														
 
															-            else:
														
 
															-                self.limit_times_users.remove(limit_times_user)
														
 
															-                self.current_user_index -= 1
														
 
															-
														
 
															-                if not limit_times_user.is_at_work_time():
														
 
															-                    log.warning("用户 {} 不在工作时间".format(limit_times_user.username))
														
 
															-                    if wait_when_null:
														
 
															-                        time.sleep(30)
														
 
															-                        continue
														
 
															-                    else:
														
 
															-                        return None
														
 
															-
														
 
															-    def del_user(self, username):
														
 
															-        for limit_times_user in self.limit_times_users:
														
 
															-            if limit_times_user.username == username:
														
 
															-                limit_times_user.del_cookie()
														
 
															-                self.limit_times_users.remove(limit_times_user)
														
 
															-                limit_times_user.record_user_status(LimitTimesUserStatus.OVERDUE)
														
 
															-                self.__load_users(username)
														
 
															-                break
														
 
															-
														
 
															-    def update_cookies(self, username, cookies):
														
 
															-        for limit_times_user in self.limit_times_users:
														
 
															-            if limit_times_user.username == username:
														
 
															-                limit_times_user.set_cookies(cookies)
														
 
															-                break
														
 
															-
														
 
															-    def delay_use(self, username, delay_seconds):
														
 
															-        for limit_times_user in self.limit_times_users:
														
 
															-            if limit_times_user.username == username:
														
 
															-                limit_times_user.delay_use = delay_seconds
														
 
															-                limit_times_user.record_user_status(LimitTimesUserStatus.SLEEP)
														
 
															-                break
														
 
															-
														
 
															-    def record_success_user(self, username):
														
 
															-        for limit_times_user in self.limit_times_users:
														
 
															-            if limit_times_user.username == username:
														
 
															-                limit_times_user.record_user_status(LimitTimesUserStatus.SUCCESS)
														
 
															-
														
 
															-    def record_exception_user(self, username):
														
 
															-        for limit_times_user in self.limit_times_users:
														
 
															-            if limit_times_user.username == username:
														
 
															-                limit_times_user.record_user_status(LimitTimesUserStatus.EXCEPTION)
														
 
															-
														
 
															-# if __name__ == '__main__':
														
 
															-#     cookiepool = PageCookiePool(redis_key='fwork:gszfcg',
														
 
															-#                                 page_url='http://www.ccgp-hubei.gov.cn/notice/cgyxgg/index_1.html',
														
 
															-#                                 driver_type='FIREFOX',
														
 
															-#                                 executable_path="D:\\geckodriver.exe")
														
 
															-#     cookiepool.create_cookie()
														
--- a/FworkSpider/untils/create_menus.py
+++ b/FworkSpider/untils/create_menus.py
@@ -1,33 +0,0 @@
 
															-from feapder.db.mongodb import MongoDB
														
 
															-
														
 
															-
														
 
															-class Details:
														
 
															-    _to_db = None
														
 
															-    _to_db_xs = None
														
 
															-    db_name = 'mgp_list'
														
 
															-    # 定义mongo链接
														
 
															-    @property
														
 
															-    def to_db(self):
														
 
															-        if not self._to_db:
														
 
															-            self._to_db = MongoDB()
														
 
															-        return self._to_db
														
 
															-
														
 
															-    @property
														
 
															-    def to_db_xs(self):
														
 
															-        if not self._to_db_xs:
														
 
															-            self._to_db_xs = MongoDB(port=27001,db='editor')
														
 
															-        return self._to_db_xs
														
 
															-    def main(self,page):
														
 
															-        menus_list = []
														
 
															-        data = self.to_db_xs.find("luaconfig",{"modifyuser":"maguopeng","param_common":{"$elemMatch": {"$regex": "广东省政府采购网", "$options": "$i"}}})
														
 
															-        # print(data)
														
 
															-        for item in data:
														
 
															-            # print(item)
														
 
															-            channls = item.get("param_common")[2]
														
 
															-            code = item.get("code")
														
 
															-            href = item.get("param_common")[11]
														
 
															-            print("Menu"+"(",f"'{channls}',",f"'{code}',\n",f"'{href}',",page,"),")
														
 
															-        #     menus_list.append(f'''Menu({channls},{code},{href},{page})''')
														
 
															-        # print(menus_list)
														
 
															-
														
 
															-Details().main(2)
														
--- a/FworkSpider/untils/execptions.py
+++ b/FworkSpider/untils/execptions.py
@@ -1,19 +1,15 @@
 
															+class PySpiderError(Exception):
														
 
															-class CustomCheckError(Exception):
														
 
															-
														
 
															-    def __init__(self, code: int = 10002, reason: str = '特征条件检查失败'):
														
 
															-        self.code = code
														
 
															-        self.reason = reason
														
 
															-
														
 
															-
														
 
															-class AttachmentNullError(Exception):
														
 
															-
														
 
															-    def __init__(self, code: int = 10004, reason: str = '附件下载失败'):
														
 
															-        self.code = code
														
 
															-        self.reason = reason
														
 
															+    def __init__(self, *args, **kwargs):
														
 
															+        if 'code' not in kwargs and 'reason' not in kwargs:
														
 
															+            kwargs['code'] = 10000
														
 
															+            kwargs['reason'] = '未知爬虫错误,请手动处理'
														
 
															+        for key, val in kwargs.items():
														
 
															+            setattr(self, key, val)
														
 
															+        super(PySpiderError, self).__init__(*args, kwargs)
														
 
															-class CustomAccountPrivilegeError(Exception):
														
 
															+class AttachmentNullError(PySpiderError):
														
 
															-    def __init__(self, *args, **kwargs):
														
 
															-        pass
														
 
															+    def __init__(self, code: int = 10004, reason: str = '附件下载异常'):
														
 
															+        super(AttachmentNullError, self).__init__(code=code, reason=reason)
														
--- a/FworkSpider/untils/get_imgcode.py
+++ b/FworkSpider/untils/get_imgcode.py
@@ -1,21 +1,138 @@
 
															 import requests
														
 
															-from typing import Mapping
														
 
															+__all__ = [
														
 
															+    "swordfish_platform",
														
 
															+    "chaojiying_platform",
														
 
															+    "chaojiying_report",
														
 
															+    "get_code",
														
 
															+    "get_code_det",
														
 
															+    "arithmetic_captcha",
														
 
															+]
														
 
															-def get_code(file_path: str) -> dict:
														
 
															-    upload_address = "http://123.57.163.80:2119/v1/images/verify"
														
 
															-    with open(file_path, 'rb') as f:
														
 
															+headers = {"accept": "application/json"}
														
 
															+
														
 
															+
														
 
															+def _pack_file(file):
														
 
															+    """包装验证码格式"""
														
 
															+    if isinstance(file, str) and file.startswith("data:image"):
														
 
															+        img_file = {"file": file}
														
 
															+    elif isinstance(file, bytes):
														
 
															+        img_file = {"file": file}
														
 
															+    else:
														
 
															+        with open(file, "rb") as f:
														
 
															+            img_bytes = f.read()
														
 
															+        img_file = {"file": img_bytes}
														
 
															+    return img_file
														
 
															+
														
 
															+
														
 
															+def _simple_captcha(file):
														
 
															+    """
														
 
															+    普通验证码
														
 
															+
														
 
															+    @param file: 验证码 - 可以是图片或者图片base64编码
														
 
															+    @return:
														
 
															+    """
														
 
															+    url = "http://123.57.163.80:2119/v1/images/verify"
														
 
															+    files = _pack_file(file)
														
 
															+    r = requests.post(url, headers=headers, files=files, stream=True, timeout=10)
														
 
															+    rp_json = r.json()
														
 
															+    if "msg" in rp_json and "success" == rp_json["msg"]:
														
 
															+        return str(rp_json["r"]["code"]).upper()
														
 
															+    return None
														
 
															+
														
 
															+
														
 
															+def _arithmetic_captcha(file):
														
 
															+    """算术验证码"""
														
 
															+    url = "http://123.57.163.80:2119/v1/images/arithmetic"
														
 
															+    files = _pack_file(file)
														
 
															+    r = requests.post(url, headers=headers, files=files, stream=True, timeout=10)
														
 
															+    json_resp = r.json()
														
 
															+    if "msg" in json_resp and "success" == json_resp["msg"]:
														
 
															+        return str(json_resp["r"]["code"]).upper()
														
 
															+    return None
														
 
															+
														
 
															+
														
 
															+def _get_click_verify_captcha(file):
														
 
															+    """点触式验证码"""
														
 
															+    url = "http://123.57.163.80:2119/v1/images/verify_det"
														
 
															+    files = _pack_file(file)
														
 
															+    r = requests.post(url, headers=headers, files=files, stream=True, timeout=10)
														
 
															+    return r.json()
														
 
															+
														
 
															+
														
 
															+def swordfish_platform(file, mode="simple"):
														
 
															+    """剑鱼验证码识别平台"""
														
 
															+    if mode.lower() == "arithmetic":
														
 
															+        return _arithmetic_captcha(file)
														
 
															+    elif mode.lower() == "det":
														
 
															+        return _get_click_verify_captcha(file)
														
 
															+    else:
														
 
															+        return _simple_captcha(file)
														
 
															+
														
 
															+
														
 
															+def chaojiying_platform(file, pic_type: int):
														
 
															+    """
														
 
															+    超级鹰识别平台
														
 
															+
														
 
															+    pic_type，详情查询地址: https://www.chaojiying.com/price.html
														
 
															+    """
														
 
															+    with open(file, 'rb') as f:
														
 
															         image_bytes = f.read()
														
 
															-    content = {'file': image_bytes}
														
 
															-    # json_resp = get_verify_code(upload_address, content)
														
 
															+    files = {'file': image_bytes}
														
 
															+
														
 
															+    url = f"http://123.57.163.80:2119/v1/images/discern?pic_type={pic_type}"
														
 
															     headers = {'accept': 'application/json'}
														
 
															-    response = requests.post(upload_address, headers=headers, files=content, stream=True)
														
 
															+    data = {
														
 
															+        'grant_type': '',
														
 
															+        'username': 'jianyu001',
														
 
															+        'password': '123qwe!A',
														
 
															+        'scope': '',
														
 
															+        'client_id': '',
														
 
															+        'client_secret': ''
														
 
															+    }
														
 
															+    response = requests.post(url, headers=headers, data=data, files=files, timeout=10)
														
 
															+    json_resp = response.json()
														
 
															+    # print(json_resp)
														
 
															+    '''code 返回0时，打码平台正常返回数据'''
														
 
															+    pic_str = json_resp["r"]["pic_str"]
														
 
															+    pic_id = json_resp["r"]["pic_id"]
														
 
															+    print("pic_id >>", pic_id)
														
 
															+    if 0 == json_resp["code"]:
														
 
															+        return pic_str
														
 
															+
														
 
															+
														
 
															+def chaojiying_report(pic_id: str):
														
 
															+    """超级鹰平台识别验证码错误时，提交识别错误的验证码pic_id"""
														
 
															+    url = f"http://123.57.163.80:2119/v1/images/report_err?pic_id={pic_id}"
														
 
															+    headers = {
														
 
															+        'accept': 'application/json',
														
 
															+        'Content-Type': 'application/x-www-form-urlencoded'
														
 
															+    }
														
 
															+    data = {
														
 
															+        'grant_type': '',
														
 
															+        'username': 'jianyu001',
														
 
															+        'password': '123qwe!A',
														
 
															+        'scope': '',
														
 
															+        'client_id': '',
														
 
															+        'client_secret': ''
														
 
															+    }
														
 
															+    response = requests.post(url, headers=headers, data=data, timeout=10)
														
 
															+    '''
														
 
															+    回调成功:{'msg': 'OK', 'code': 0}  
														
 
															+    此接口不能随便调用！程序逻辑里要这样判断： 如果 识别结果是错的 再调用 报错返分 接口。 如果没有这个判断或是无法判断，就不要调用！
														
 
															+    '''
														
 
															+    # print(response.json())
														
 
															     return response.json()
														
 
															+
														
 
															+def get_code(file_path: str) -> dict:
														
 
															+    return swordfish_platform(file_path) or {}
														
 
															+
														
 
															+
														
 
															 def get_code_det(image_bytes) -> dict:
														
 
															-   upload_address = "http://123.57.163.80:2119/v1/images/verify_det"
														
 
															-   content = {'image_content': image_bytes}
														
 
															-   headers = {'accept': 'application/json'}
														
 
															-   response = requests.post(upload_address, headers=headers, files=content, stream=True)
														
 
															-   return response.json()
														
 
															+    return swordfish_platform(image_bytes, mode="det")
														
 
															+
														
 
															+# 算术
														
 
															+def arithmetic_captcha(image_stream):
														
 
															+    return swordfish_platform(image_stream, mode="arithmetic")
														
--- a/FworkSpider/untils/proxy_pool.py
+++ b/FworkSpider/untils/proxy_pool.py
@@ -1,763 +1,3 @@
 
															-# coding:utf8
														
 
															-"""
														
 
															-代理池
														
 
															-"""
														
 
															-import datetime
														
 
															-import json
														
 
															-import os
														
 
															-import random
														
 
															-import socket
														
 
															-import time
														
 
															-from urllib import parse
														
 
															+from feapder.network.proxy_pool import ProxyPool
														
 
															-import redis
														
 
															-import requests
														
 
															-
														
 
															-from feapder import setting
														
 
															-from feapder.utils import tools
														
 
															-from feapder.utils.log import log
														
 
															-
														
 
															-
														
 
															-def decrypt(input_str: str) -> str:
														
 
															-    """
														
 
															-    改写：新增
														
 
															-    定义base64解密函数
														
 
															-
														
 
															-    :param input_str:
														
 
															-    :return:
														
 
															-    """
														
 
															-    key = "ABNOPqrceQRSTklmUDEFGXYZabnopfghHVWdijstuvwCIJKLMxyz0123456789+/"
														
 
															-    ascii_list = ['{:0>6}'.format(str(bin(key.index(i))).replace('0b', '')) for i in input_str if i != '=']
														
 
															-    output_str = ''
														
 
															-    # 对前面不是“=”的字节取索引，然后转换为2进制
														
 
															-    # 补齐“=”的个数
														
 
															-    equal_num = input_str.count('=')
														
 
															-    while ascii_list:
														
 
															-        temp_list = ascii_list[:4]
														
 
															-        # 转换成2进制字符串
														
 
															-        temp_str = ''.join(temp_list)
														
 
															-        # 对没有8位2进制的字符串补够8位2进制
														
 
															-        if len(temp_str) % 8 != 0:
														
 
															-            temp_str = temp_str[0:-1 * equal_num * 2]
														
 
															-        # 4个6字节的二进制  转换  为三个8字节的二进制
														
 
															-        temp_str_list = [temp_str[x:x + 8] for x in [0, 8, 16]]
														
 
															-        # 二进制转为10进制
														
 
															-        temp_str_list = [int(x, 2) for x in temp_str_list if x]
														
 
															-        # 连接成字符串
														
 
															-        output_str += ''.join([chr(x) for x in temp_str_list])
														
 
															-        ascii_list = ascii_list[4:]
														
 
															-    return output_str
														
 
															-
														
 
															-
														
 
															-# 建立本地缓存代理文件夹
														
 
															-proxy_path = os.path.join(os.path.dirname(__file__), "proxy_file")
														
 
															-if not os.path.exists(proxy_path):
														
 
															-    os.mkdir(proxy_path)
														
 
															-
														
 
															-
														
 
															-# def get_proxies_by_host(host, port):
														
 
															-#     proxy_id = "{}:{}".format(host, port)
														
 
															-#     return get_proxies_by_id(proxy_id)
														
 
															-
														
 
															-
														
 
															-# def get_proxies_by_id(proxy_id):
														
 
															-#     proxies = {
														
 
															-#         "http": "http://{}".format(proxy_id),
														
 
															-#         "https": "https://{}".format(proxy_id),
														
 
															-#     }
														
 
															-#     return proxies
														
 
															-
														
 
															-
														
 
															-def get_proxy_from_url(**kwargs):
														
 
															-    """
														
 
															-    获取指定url的代理
														
 
															-    :param kwargs:
														
 
															-    :return:
														
 
															-    """
														
 
															-    proxy_source_url = kwargs.get("proxy_source_url", [])
														
 
															-    # proxy_source_url = "http://socks.spdata.jianyu360.com/socks/getips?limit=100"
														
 
															-
														
 
															-    if not isinstance(proxy_source_url, list):
														
 
															-        proxy_source_url = [proxy_source_url]
														
 
															-        proxy_source_url = [x for x in proxy_source_url if x]
														
 
															-    if not proxy_source_url:
														
 
															-        raise ValueError("no specify proxy_source_url: {}".format(proxy_source_url))
														
 
															-    kwargs = kwargs.copy()
														
 
															-    kwargs.pop("proxy_source_url")
														
 
															-    proxies_list = []
														
 
															-    for url in proxy_source_url:
														
 
															-        if url.startswith("http"):
														
 
															-            proxies_list.extend(get_proxy_from_http(url, **kwargs))
														
 
															-        elif url.startswith("redis"):
														
 
															-            proxies_list.extend(get_proxy_from_redis(url, **kwargs))
														
 
															-
														
 
															-    if proxies_list:
														
 
															-        # 顺序打乱
														
 
															-        random.shuffle(proxies_list)
														
 
															-    return proxies_list
														
 
															-
														
 
															-
														
 
															-def get_proxy_from_http(proxy_source_url, **kwargs):
														
 
															-    """
														
 
															-    从指定 http 地址获取代理
														
 
															-    :param proxy_source_url:
														
 
															-    :param kwargs:
														
 
															-    :return:
														
 
															-    """
														
 
															-    filename = tools.get_md5(proxy_source_url) + ".txt"
														
 
															-    abs_filename = os.path.join(proxy_path, filename)
														
 
															-    update_interval = kwargs.get("local_proxy_file_cache_timeout", 30)
														
 
															-    update_flag = 0
														
 
															-    if not update_interval:
														
 
															-        # 强制更新
														
 
															-        update_flag = 1
														
 
															-    elif not os.path.exists(abs_filename):
														
 
															-        # 文件不存在则更新
														
 
															-        update_flag = 1
														
 
															-    elif time.time() - os.stat(abs_filename).st_mtime > update_interval:
														
 
															-        # 超过更新间隔
														
 
															-        update_flag = 1
														
 
															-    if update_flag:
														
 
															-        pool = []
														
 
															-        response = requests.get(proxy_source_url, timeout=20)
														
 
															-        # 改写：获取scocks代理的response处理
														
 
															-        for proxy in response.json():
														
 
															-            host = decrypt(proxy['host'])
														
 
															-            port = proxy['port']
														
 
															-            endTime = proxy['EndTime']
														
 
															-            pool.append(f"{host}:{port}&&{endTime}")
														
 
															-
														
 
															-        with open(os.path.join(proxy_path, filename), "w") as f:
														
 
															-            f.write('\n'.join(pool))
														
 
															-    return get_proxy_from_file(filename)
														
 
															-
														
 
															-
														
 
															-def get_proxy_from_file(filename, **kwargs):
														
 
															-    """
														
 
															-    从指定本地文件获取代理
														
 
															-        文件格式
														
 
															-        ip:port:https
														
 
															-        ip:port:http
														
 
															-        ip:port
														
 
															-    :param filename:
														
 
															-    :param kwargs:
														
 
															-    :return:
														
 
															-    """
														
 
															-    proxies_list = []
														
 
															-    with open(os.path.join(proxy_path, filename), "r") as f:
														
 
															-        lines = f.readlines()
														
 
															-
														
 
															-    for line in lines:
														
 
															-        line = line.strip()
														
 
															-        if not line:
														
 
															-            continue
														
 
															-        # 解析
														
 
															-        auth = ""
														
 
															-        if "@" in line:
														
 
															-            auth, line = line.split("@")
														
 
															-        # 改写，解析代理有效期结束时间
														
 
															-        line, end = line.split("&&")
														
 
															-
														
 
															-        items = line.split(":")
														
 
															-        if len(items) < 2:
														
 
															-            continue
														
 
															-
														
 
															-        ip, port, *protocol = items
														
 
															-        if not all([port, ip]):
														
 
															-            continue
														
 
															-        if auth:
														
 
															-            ip = "{}@{}".format(auth, ip)
														
 
															-        if not protocol:
														
 
															-            # 改写：判断代理是否在有效期内，并将代理格式重http格式改成socks格式
														
 
															-            if time.time() < int(end):
														
 
															-                proxies = {
														
 
															-                    "https": "socks5://%s:%s" % (ip, port),
														
 
															-                    "http": "socks5://%s:%s" % (ip, port),
														
 
															-                    # "end":end
														
 
															-                }
														
 
															-            else:
														
 
															-                continue
														
 
															-        else:
														
 
															-            proxies = {protocol[0]: "%s://%s:%s" % (protocol[0], ip, port)}
														
 
															-        proxies_list.append(proxies)
														
 
															-
														
 
															-    return proxies_list
														
 
															-
														
 
															-
														
 
															-def get_proxy_from_redis(proxy_source_url, **kwargs):
														
 
															-    """
														
 
															-    从指定 redis 地址获取代理
														
 
															-    @param proxy_source_url: redis://:passwd@host:ip/db
														
 
															-        redis 存储结构 zset
														
 
															-        ip:port ts
														
 
															-    @param kwargs:
														
 
															-        {"redis_proxies_key": "xxx"}
														
 
															-    @return: [{'http':'http://xxx.xxx.xxx:xxx', 'https':'https://xxx.xxx.xxx.xxx:xxx'}]
														
 
															-    """
														
 
															-
														
 
															-    redis_conn = redis.StrictRedis.from_url(proxy_source_url)
														
 
															-    key = kwargs.get("redis_proxies_key")
														
 
															-    assert key, "从redis中获取代理 需要指定 redis_proxies_key"
														
 
															-    proxies = redis_conn.zrange(key, 0, -1)
														
 
															-    proxies_list = []
														
 
															-    for proxy in proxies:
														
 
															-        proxy = proxy.decode()
														
 
															-        proxies_list.append(
														
 
															-            {"https": "https://%s" % proxy, "http": "http://%s" % proxy}
														
 
															-        )
														
 
															-    return proxies_list
														
 
															-
														
 
															-
														
 
															-def check_proxy(
														
 
															-        ip="",
														
 
															-        port="",
														
 
															-        proxies=None,
														
 
															-        type=0,
														
 
															-        timeout=5,
														
 
															-        logger=None,
														
 
															-        show_error_log=True,
														
 
															-        **kwargs,
														
 
															-):
														
 
															-    """
														
 
															-    代理有效性检查
														
 
															-    :param ip:
														
 
															-    :param port:
														
 
															-    :param type: 0:socket  1:requests
														
 
															-    :param timeout:
														
 
															-    :param logger:
														
 
															-    :return:
														
 
															-    """
														
 
															-    if not logger:
														
 
															-        logger = log
														
 
															-    ok = 0
														
 
															-    if type == 0 and ip and port:
														
 
															-        # socket检测成功 不代表代理一定可用 Connection closed by foreign host. 这种情况就不行
														
 
															-        with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sk:
														
 
															-            sk.settimeout(timeout)
														
 
															-            try:
														
 
															-                # 必须检测 否则代理永远不刷新
														
 
															-                sk.connect((ip, int(port)))
														
 
															-                ok = 1
														
 
															-            except Exception as e:
														
 
															-                if show_error_log:
														
 
															-                    logger.debug("check proxy failed: {} {}:{}".format(e, ip, port))
														
 
															-            sk.close()
														
 
															-    else:
														
 
															-        if not proxies:
														
 
															-            proxies = {
														
 
															-                "http": "socks5://{}:{}".format(ip, port),
														
 
															-                "https": "socks5//{}:{}".format(ip, port),
														
 
															-            }
														
 
															-        try:
														
 
															-            # 改写：代理检测的url
														
 
															-            r = requests.get(
														
 
															-                "https://myip.ipip.net", proxies=proxies, timeout=timeout, stream=True
														
 
															-            )
														
 
															-            ok = 1
														
 
															-            r.close()
														
 
															-        except Exception as e:
														
 
															-            if show_error_log:
														
 
															-                logger.debug(
														
 
															-                    "check proxy failed: {} {}:{} {}".format(e, ip, port, proxies)
														
 
															-                )
														
 
															-    return ok
														
 
															-
														
 
															-
														
 
															-class ProxyItem(object):
														
 
															-    """单个代理对象"""
														
 
															-
														
 
															-    # 代理标记
														
 
															-    proxy_tag_list = (-1, 0, 1)
														
 
															-
														
 
															-    def __init__(
														
 
															-            self,
														
 
															-            proxies=None,
														
 
															-            valid_timeout=20,
														
 
															-            check_interval=180,
														
 
															-            max_proxy_use_num=10000,
														
 
															-            delay=30,
														
 
															-            use_interval=None,
														
 
															-            **kwargs,
														
 
															-    ):
														
 
															-        """
														
 
															-        :param proxies:
														
 
															-        :param valid_timeout:  代理检测超时时间 默认-1    20181008  默认不再监测有效性
														
 
															-        :param check_interval:
														
 
															-        :param max_proxy_use_num:
														
 
															-        :param delay:
														
 
															-        :param use_interval: 使用间隔 单位秒 默认不限制
														
 
															-        :param logger: 日志处理器 默认 log.get_logger()
														
 
															-        :param kwargs:
														
 
															-        """
														
 
															-        # {"http": ..., "https": ...}
														
 
															-        self.proxies = proxies
														
 
															-        # 检测超时时间 秒
														
 
															-        self.valid_timeout = valid_timeout
														
 
															-        # 检测间隔 秒
														
 
															-        self.check_interval = check_interval
														
 
															-
														
 
															-        # 标记  0:正常 -1:丢弃  1: 待会再用 ...
														
 
															-        self.flag = 0
														
 
															-        # 上次状态变化时间
														
 
															-        self.flag_ts = 0
														
 
															-        # 上次更新时间 有效时间
														
 
															-        self.update_ts = 0
														
 
															-        # 最大被使用次数
														
 
															-        self.max_proxy_use_num = max_proxy_use_num
														
 
															-        # 被使用次数记录
														
 
															-        self.use_num = 0
														
 
															-        # 延迟使用时间
														
 
															-        self.delay = delay
														
 
															-        # 使用间隔 单位秒
														
 
															-        self.use_interval = use_interval
														
 
															-        # 使用时间
														
 
															-        self.use_ts = 0
														
 
															-
														
 
															-        self.proxy_args = self.parse_proxies(self.proxies)
														
 
															-        self.proxy_ip = self.proxy_args["ip"]
														
 
															-        self.proxy_port = self.proxy_args["port"]
														
 
															-        self.proxy_ip_port = "{}:{}".format(self.proxy_ip, self.proxy_port)
														
 
															-        if self.proxy_args["user"]:
														
 
															-            self.proxy_id = "{user}:{password}@{ip}:{port}".format(**self.proxy_args)
														
 
															-        else:
														
 
															-            self.proxy_id = self.proxy_ip_port
														
 
															-
														
 
															-        # 日志处理器
														
 
															-        self.logger = log
														
 
															-
														
 
															-    def get_proxies(self):
														
 
															-        self.use_num += 1
														
 
															-        return self.proxies
														
 
															-
														
 
															-    def is_delay(self):
														
 
															-        return self.flag == 1
														
 
															-
														
 
															-    def is_valid(self, force=0, type=0):
														
 
															-        """
														
 
															-        检测代理是否有效
														
 
															-            1 有效
														
 
															-            2 延时使用
														
 
															-            0 无效 直接在代理池删除
														
 
															-        :param force:
														
 
															-        :param type:
														
 
															-        :return:
														
 
															-        """
														
 
															-        if self.use_num > self.max_proxy_use_num > 0:
														
 
															-            self.logger.debug("代理达到最大使用次数: {} {}".format(self.use_num, self.proxies))
														
 
															-            return 0
														
 
															-        if self.flag == -1:
														
 
															-            self.logger.debug("代理被标记 -1 丢弃 %s" % self.proxies)
														
 
															-            return 0
														
 
															-        if self.delay > 0 and self.flag == 1:
														
 
															-            if time.time() - self.flag_ts < self.delay:
														
 
															-                self.logger.debug("代理被标记 1 延迟 %s" % self.proxies)
														
 
															-                return 2
														
 
															-            else:
														
 
															-                self.flag = 0
														
 
															-                self.logger.debug("延迟代理释放: {}".format(self.proxies))
														
 
															-        if self.use_interval:
														
 
															-            if time.time() - self.use_ts < self.use_interval:
														
 
															-                return 2
														
 
															-        if not force:
														
 
															-            if time.time() - self.update_ts < self.check_interval:
														
 
															-                return 1
														
 
															-        if self.valid_timeout > 0:
														
 
															-            ok = check_proxy(
														
 
															-                proxies=self.proxies,
														
 
															-                type=type,
														
 
															-                timeout=self.valid_timeout,
														
 
															-                logger=self.logger,
														
 
															-            )
														
 
															-        else:
														
 
															-            ok = 1
														
 
															-        self.update_ts = time.time()
														
 
															-        return ok
														
 
															-
														
 
															-    @classmethod
														
 
															-    def parse_proxies(self, proxies):
														
 
															-        """
														
 
															-        分解代理组成部分
														
 
															-        :param proxies:
														
 
															-        :return:
														
 
															-        """
														
 
															-        if not proxies:
														
 
															-            return {}
														
 
															-        if isinstance(proxies, (str, bytes)):
														
 
															-            proxies = json.loads(proxies)
														
 
															-        protocol = list(proxies.keys())
														
 
															-        if not protocol:
														
 
															-            return {}
														
 
															-        _url = proxies.get(protocol[0])
														
 
															-        # 改写：注释http代理url的拼接，以正常生成代理池
														
 
															-        # if not _url.startswith("http"):
														
 
															-        #     _url = "http://" + _url
														
 
															-        _url_parse = parse.urlparse(_url)
														
 
															-        netloc = _url_parse.netloc
														
 
															-        if "@" in netloc:
														
 
															-            netloc_auth, netloc_host = netloc.split("@")
														
 
															-        else:
														
 
															-            netloc_auth, netloc_host = "", netloc
														
 
															-        ip, *port = netloc_host.split(":")
														
 
															-        port = port[0] if port else "80"
														
 
															-        user, *password = netloc_auth.split(":")
														
 
															-        password = password[0] if password else ""
														
 
															-        return {
														
 
															-            "protocol": protocol,
														
 
															-            "ip": ip,
														
 
															-            "port": port,
														
 
															-            "user": user,
														
 
															-            "password": password,
														
 
															-            "ip_port": "{}:{}".format(ip, port),
														
 
															-        }
														
 
															-
														
 
															-
														
 
															-class ProxyPoolBase(object):
														
 
															-    def __init__(self, *args, **kwargs):
														
 
															-        pass
														
 
															-
														
 
															-    def get(self, *args, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															-
														
 
															-
														
 
															-class ProxyPool(ProxyPoolBase):
														
 
															-    """代理池"""
														
 
															-
														
 
															-    def __init__(self, **kwargs):
														
 
															-        """
														
 
															-        :param size: 代理池大小  -1 为不限制
														
 
															-        :param proxy_source_url: 代理文件地址 支持列表
														
 
															-        :param proxy_instance:  提供代理的实例
														
 
															-        :param reset_interval:  代理池重置间隔 最小间隔
														
 
															-        :param reset_interval_max:  代理池重置间隔 最大间隔 默认2分钟
														
 
															-        :param check_valid: 是否在获取代理时进行检测有效性
														
 
															-        :param local_proxy_file_cache_timeout: 本地缓存的代理文件超时时间
														
 
															-        :param logger: 日志处理器 默认 log.get_logger()
														
 
															-        :param kwargs: 其他的参数
														
 
															-        """
														
 
															-        kwargs.setdefault("size", -1)
														
 
															-        kwargs.setdefault("proxy_source_url", setting.PROXY_EXTRACT_API)
														
 
															-
														
 
															-        super(ProxyPool, self).__init__(**kwargs)
														
 
															-        # 队列最大长度
														
 
															-        self.max_queue_size = kwargs.get("size", -1)
														
 
															-        # 实际代理数量
														
 
															-        self.real_max_proxy_count = 1000
														
 
															-        # 代理可用最大次数
														
 
															-        # 代理获取地址 http://localhost/proxy.txt
														
 
															-        self.proxy_source_url = kwargs.get("proxy_source_url", [])
														
 
															-        if not isinstance(self.proxy_source_url, list):
														
 
															-            self.proxy_source_url = [self.proxy_source_url]
														
 
															-            self.proxy_source_url = [x for x in self.proxy_source_url if x]
														
 
															-            self.proxy_source_url = list(set(self.proxy_source_url))
														
 
															-            kwargs.update({"proxy_source_url": self.proxy_source_url})
														
 
															-        # 处理日志
														
 
															-        self.logger = kwargs.get("logger") or log
														
 
															-        kwargs["logger"] = self.logger
														
 
															-        if not self.proxy_source_url:
														
 
															-            self.logger.warn("need set proxy_source_url or proxy_instance")
														
 
															-
														
 
															-        # 代理池重置间隔
														
 
															-        self.reset_interval = kwargs.get("reset_interval", 5)
														
 
															-        # 强制重置一下代理 添加新的代理进来 防止一直使用旧的被封的代理
														
 
															-        self.reset_interval_max = kwargs.get("reset_interval_max", 180)
														
 
															-        # 是否监测代理有效性
														
 
															-        self.check_valid = kwargs.get("check_valid", True)
														
 
															-
														
 
															-        # 代理队列
														
 
															-        self.proxy_queue = None
														
 
															-        # {代理id: ProxyItem, ...}
														
 
															-        self.proxy_dict = {}
														
 
															-        # 失效代理队列
														
 
															-        self.invalid_proxy_dict = {}
														
 
															-
														
 
															-        self.kwargs = kwargs
														
 
															-
														
 
															-        # 重置代理池锁
														
 
															-        self.reset_lock = None
														
 
															-        # 重置时间
														
 
															-        self.last_reset_time = 0
														
 
															-        # 重置的太快了  计数
														
 
															-        self.reset_fast_count = 0
														
 
															-        # 计数 获取代理重试3次仍然失败 次数
														
 
															-        self.no_valid_proxy_times = 0
														
 
															-
														
 
															-        # 上次获取代理时间
														
 
															-        self.last_get_ts = time.time()
														
 
															-
														
 
															-        # 记录ProxyItem的update_ts 防止由于重置太快导致重复检测有效性
														
 
															-        self.proxy_item_update_ts_dict = {}
														
 
															-
														
 
															-        # 警告
														
 
															-        self.warn_flag = False
														
 
															-
														
 
															-    def warn(self):
														
 
															-        if not self.warn_flag:
														
 
															-            for url in self.proxy_source_url:
														
 
															-                if "zhima" in url:
														
 
															-                    continue
														
 
															-            self.warn_flag = True
														
 
															-        return
														
 
															-
														
 
															-    @property
														
 
															-    def queue_size(self):
														
 
															-        """
														
 
															-        当前代理池中代理数量
														
 
															-        :return:
														
 
															-        """
														
 
															-        return self.proxy_queue.qsize() if self.proxy_queue is not None else 0
														
 
															-
														
 
															-    def clear(self):
														
 
															-        """
														
 
															-        清空自己
														
 
															-        :return:
														
 
															-        """
														
 
															-        self.proxy_queue = None
														
 
															-        # {代理ip: ProxyItem, ...}
														
 
															-        self.proxy_dict = {}
														
 
															-        # 清理失效代理集合
														
 
															-        _limit = datetime.datetime.now() - datetime.timedelta(minutes=10)
														
 
															-        self.invalid_proxy_dict = {
														
 
															-            k: v for k, v in self.invalid_proxy_dict.items() if v > _limit
														
 
															-        }
														
 
															-        # 清理超时的update_ts记录
														
 
															-        _limit = time.time() - 600
														
 
															-        self.proxy_item_update_ts_dict = {
														
 
															-            k: v for k, v in self.proxy_item_update_ts_dict.items() if v > _limit
														
 
															-        }
														
 
															-        return
														
 
															-
														
 
															-    def get(self, retry: int = 0) -> dict:
														
 
															-        """
														
 
															-        从代理池中获取代理
														
 
															-        :param retry:
														
 
															-        :return:
														
 
															-        """
														
 
															-        retry += 1
														
 
															-        if retry > 3:
														
 
															-            self.no_valid_proxy_times += 1
														
 
															-            return None
														
 
															-        # if time.time() - self.last_get_ts > 3 * 60:
														
 
															-        #     # 3分钟没有获取过 重置一下
														
 
															-        #     try:
														
 
															-        #         self.reset_proxy_pool()
														
 
															-        #     except Exception as e:
														
 
															-        #         self.logger.exception(e)
														
 
															-        # 记录获取时间
														
 
															-        self.last_get_ts = time.time()
														
 
															-        #
														
 
															-        self.warn()
														
 
															-        proxy_item = self.get_random_proxy()
														
 
															-        if proxy_item:
														
 
															-            # 不检测
														
 
															-            if not self.check_valid:  #
														
 
															-                # 塞回去
														
 
															-                proxies = proxy_item.get_proxies()
														
 
															-                self.put_proxy_item(proxy_item)
														
 
															-                return proxies
														
 
															-            else:
														
 
															-                is_valid = proxy_item.is_valid()
														
 
															-                if is_valid:
														
 
															-                    # 记录update_ts
														
 
															-                    self.proxy_item_update_ts_dict[
														
 
															-                        proxy_item.proxy_id
														
 
															-                    ] = proxy_item.update_ts
														
 
															-                    # 塞回去
														
 
															-                    proxies = proxy_item.get_proxies()
														
 
															-                    self.put_proxy_item(proxy_item)
														
 
															-                    if is_valid == 1:
														
 
															-                        if proxy_item.use_interval:
														
 
															-                            proxy_item.use_ts = time.time()
														
 
															-                        return proxies
														
 
															-                else:
														
 
															-                    # 处理失效代理
														
 
															-                    self.proxy_dict.pop(proxy_item.proxy_id, "")
														
 
															-                    self.invalid_proxy_dict[
														
 
															-                        proxy_item.proxy_id
														
 
															-                    ] = datetime.datetime.now()
														
 
															-        else:
														
 
															-            try:
														
 
															-                time.sleep(3)
														
 
															-                self.reset_proxy_pool()
														
 
															-            except Exception as e:
														
 
															-                self.logger.exception(e)
														
 
															-        if self.no_valid_proxy_times >= 5:
														
 
															-            # 解决bug: 当爬虫仅剩一个任务时 由于只有一个线程检测代理 而不可用代理又刚好很多（时间越长越多） 可能出现一直获取不到代理的情况
														
 
															-            # 导致爬虫烂尾
														
 
															-            try:
														
 
															-                time.sleep(3)
														
 
															-                self.reset_proxy_pool()
														
 
															-            except Exception as e:
														
 
															-                self.logger.exception(e)
														
 
															-        return self.get(retry)
														
 
															-
														
 
															-    get_proxy = get
														
 
															-
														
 
															-    def get_random_proxy(self) -> ProxyItem:
														
 
															-        """
														
 
															-        随机获取代理
														
 
															-        :return:
														
 
															-        """
														
 
															-        if self.proxy_queue is not None:
														
 
															-            if random.random() < 0.5:
														
 
															-                # 一半概率检查 这是个高频操作 优化一下
														
 
															-                if time.time() - self.last_reset_time > self.reset_interval_max:
														
 
															-                    time.sleep(3)
														
 
															-                    self.reset_proxy_pool(force=True)
														
 
															-                else:
														
 
															-                    min_q_size = (
														
 
															-                        min(self.max_queue_size / 2, self.real_max_proxy_count / 2)
														
 
															-                        if self.max_queue_size > 0
														
 
															-                        else self.real_max_proxy_count / 2
														
 
															-                    )
														
 
															-                    if self.proxy_queue.qsize() < min_q_size:
														
 
															-                        time.sleep(3)
														
 
															-                        self.reset_proxy_pool()
														
 
															-            try:
														
 
															-                return self.proxy_queue.get_nowait()
														
 
															-            except Exception:
														
 
															-                pass
														
 
															-        return None
														
 
															-
														
 
															-    def append_proxies(self, proxies_list: list) -> int:
														
 
															-        """
														
 
															-        添加代理到代理池
														
 
															-        :param proxies_list:
														
 
															-        :return:
														
 
															-        """
														
 
															-        count = 0
														
 
															-        if not isinstance(proxies_list, list):
														
 
															-            proxies_list = [proxies_list]
														
 
															-        for proxies in proxies_list:
														
 
															-            if proxies:
														
 
															-                proxy_item = ProxyItem(proxies=proxies, **self.kwargs)
														
 
															-                # 增加失效判断 2018/12/18
														
 
															-                if proxy_item.proxy_id in self.invalid_proxy_dict:
														
 
															-                    continue
														
 
															-                if proxy_item.proxy_id not in self.proxy_dict:
														
 
															-                    # 补充update_ts
														
 
															-                    if not proxy_item.update_ts:
														
 
															-                        proxy_item.update_ts = self.proxy_item_update_ts_dict.get(
														
 
															-                            proxy_item.proxy_id, 0
														
 
															-                        )
														
 
															-                    self.put_proxy_item(proxy_item)
														
 
															-                    self.proxy_dict[proxy_item.proxy_id] = proxy_item
														
 
															-                    count += 1
														
 
															-        return count
														
 
															-
														
 
															-    def put_proxy_item(self, proxy_item: ProxyItem):
														
 
															-        """
														
 
															-        添加 ProxyItem 到代理池
														
 
															-        :param proxy_item:
														
 
															-        :return:
														
 
															-        """
														
 
															-        return self.proxy_queue.put_nowait(proxy_item)
														
 
															-
														
 
															-    def reset_proxy_pool(self, force: bool = False):
														
 
															-        """
														
 
															-        重置代理池
														
 
															-        :param force: 是否强制重置代理池
														
 
															-        :return:
														
 
															-        """
														
 
															-        if not self.reset_lock:
														
 
															-            # 必须用时调用 否则 可能存在 gevent patch前 threading就已经被导入 导致的Rlock patch失效
														
 
															-            import threading
														
 
															-
														
 
															-            self.reset_lock = threading.RLock()
														
 
															-        with self.reset_lock:
														
 
															-            if (
														
 
															-                    force
														
 
															-                    or self.proxy_queue is None
														
 
															-                    or (
														
 
															-                    self.max_queue_size > 0
														
 
															-                    and self.proxy_queue.qsize() < self.max_queue_size / 2
														
 
															-            )
														
 
															-                    or (
														
 
															-                    self.max_queue_size < 0
														
 
															-                    and self.proxy_queue.qsize() < self.real_max_proxy_count / 2
														
 
															-            )
														
 
															-                    or self.no_valid_proxy_times >= 5
														
 
															-            ):
														
 
															-                if time.time() - self.last_reset_time < self.reset_interval:
														
 
															-                    self.reset_fast_count += 1
														
 
															-                    if self.reset_fast_count % 10 == 0:
														
 
															-                        self.logger.debug(
														
 
															-                            "代理池重置的太快了:) {}".format(self.reset_fast_count)
														
 
															-                        )
														
 
															-                        time.sleep(1)
														
 
															-                else:
														
 
															-                    self.clear()
														
 
															-                    if self.proxy_queue is None:
														
 
															-                        import queue
														
 
															-
														
 
															-                        self.proxy_queue = queue.Queue()
														
 
															-                    # TODO 这里获取到的可能重复
														
 
															-                    proxies_list = get_proxy_from_url(**self.kwargs)
														
 
															-                    self.real_max_proxy_count = len(proxies_list)
														
 
															-                    if 0 < self.max_queue_size < self.real_max_proxy_count:
														
 
															-                        proxies_list = random.sample(proxies_list, self.max_queue_size)
														
 
															-                    _valid_count = self.append_proxies(proxies_list)
														
 
															-                    self.last_reset_time = time.time()
														
 
															-                    self.no_valid_proxy_times = 0
														
 
															-                    self.logger.debug(
														
 
															-                        "重置代理池成功: 获取{}, 成功添加{}, 失效{},  当前代理数{},".format(
														
 
															-                            len(proxies_list),
														
 
															-                            _valid_count,
														
 
															-                            len(self.invalid_proxy_dict),
														
 
															-                            len(self.proxy_dict),
														
 
															-                        )
														
 
															-                    )
														
 
															-        return
														
 
															-
														
 
															-    def tag_proxy(self, proxies_list: list, flag: int, *, delay=30) -> bool:
														
 
															-        """
														
 
															-        对代理进行标记
														
 
															-        :param proxies_list:
														
 
															-        :param flag:
														
 
															-                    -1  废弃
														
 
															-                    1 延迟使用
														
 
															-        :param delay: 延迟时间
														
 
															-        :return:
														
 
															-        """
														
 
															-        if int(flag) not in ProxyItem.proxy_tag_list or not proxies_list:
														
 
															-            return False
														
 
															-        if not isinstance(proxies_list, list):
														
 
															-            proxies_list = [proxies_list]
														
 
															-        for proxies in proxies_list:
														
 
															-            if not proxies:
														
 
															-                continue
														
 
															-            proxy_id = ProxyItem(proxies).proxy_id
														
 
															-            if proxy_id not in self.proxy_dict:
														
 
															-                continue
														
 
															-            self.proxy_dict[proxy_id].flag = flag
														
 
															-            self.proxy_dict[proxy_id].flag_ts = time.time()
														
 
															-            self.proxy_dict[proxy_id].delay = delay
														
 
															-
														
 
															-        return True
														
 
															-
														
 
															-    def get_proxy_item(self, proxy_id="", proxies=None):
														
 
															-        """
														
 
															-        获取代理对象
														
 
															-        :param proxy_id:
														
 
															-        :param proxies:
														
 
															-        :return:
														
 
															-        """
														
 
															-        if proxy_id:
														
 
															-            return self.proxy_dict.get(proxy_id)
														
 
															-        if proxies:
														
 
															-            proxy_id = ProxyItem(proxies).proxy_id
														
 
															-            return self.proxy_dict.get(proxy_id)
														
 
															-        return
														
 
															-
														
 
															-    def copy(self):
														
 
															-        return ProxyPool(**self.kwargs)
														
 
															-
														
 
															-    def all(self) -> list:
														
 
															-        """
														
 
															-        获取当前代理池中的全部代理
														
 
															-        :return:
														
 
															-        """
														
 
															-        return get_proxy_from_url(**self.kwargs)
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    ProxyPool().get()
														
 
															+__all__ = ["ProxyPool"]
														
--- a/FworkSpider/untils/tools.py
+++ b/FworkSpider/untils/tools.py
@@ -1,24 +1,93 @@
 
															+import copy
														
 
															+import functools
														
 
															 import hashlib
														
 
															-import json
														
 
															 import re
														
 
															 from collections import namedtuple
														
 
															-import requests
														
 
															-from setting import WECHAT_WARNING_URL,WECHAT_WARNING_PHONE,WARNING_INTERVAL,WECHAT_WARNING_ALL
														
 
															+from string import whitespace
														
 
															+
														
 
															 import bson
														
 
															-from feapder.utils.log import log
														
 
															-from feapder.db.mongodb import MongoDB
														
 
															-from .cleaner import cleaner
														
 
															-import sys
														
 
															+import requests
														
 
															+
														
 
															+from untils.clean_html import cleaner
														
 
															 SearchText = namedtuple('SearchText', ['total'])
														
 
															-def substitute(html_str,special=None, completely=False):
														
 
															+def substitute(html_str, special=None, completely=False):
														
 
															     """HTML 替换"""
														
 
															-    html_str = cleaner(html=html_str,special=None, completely=False)
														
 
															+    html_str = cleaner(html=html_str, special=special, completely=completely)
														
 
															     return html_str
														
 
															+def merge_files(*files):
														
 
															+    """合并文件"""
														
 
															+    res = {}
														
 
															+    for file_ in files:
														
 
															+        if isinstance(file_, dict):
														
 
															+            for _, attachment in file_.items():
														
 
															+                res[str(len(res) + 1)] = attachment
														
 
															+    return res
														
 
															+
														
 
															+
														
 
															+def is_all_chinese(strs):
														
 
															+    """检验是否全是中文字符"""
														
 
															+    for _char in strs:
														
 
															+        if not '\u4e00' <= _char <= '\u9fa5':
														
 
															+            return False
														
 
															+    return True
														
 
															+
														
 
															+
														
 
															+def clean_document(*fields):
														
 
															+    """
														
 
															+    清洗mongo文档
														
 
															+
														
 
															+    :param fields: 清洗字段
														
 
															+
														
 
															+    # 用例:
														
 
															+    # >>> clean_document('dzr')(lambda *args, **kw: None)(document)
														
 
															+    """
														
 
															+
														
 
															+    def clean(func):
														
 
															+        @functools.wraps(func)
														
 
															+        def wrapper(*args, **kwargs):
														
 
															+            defaults = {
														
 
															+                "_id",
														
 
															+                "parser_name", "parser_url", "request_params",
														
 
															+                "failed", "error"
														
 
															+            }
														
 
															+            removes = defaults if not fields else {*defaults, *fields}
														
 
															+            item = args[0] if not kwargs else kwargs
														
 
															+            data_dict = item if isinstance(item, dict) else item.to_dict
														
 
															+            copy_data_dict = copy.deepcopy(data_dict)
														
 
															+            for k in copy_data_dict.keys():
														
 
															+                if k in removes:
														
 
															+                    del data_dict[k]
														
 
															+                    try:
														
 
															+                        delattr(item, k)  # 删除 Item 类实例属性
														
 
															+                    except AttributeError:
														
 
															+                        pass
														
 
															+            return func(*args, **kwargs)
														
 
															+
														
 
															+        return wrapper
														
 
															+
														
 
															+    return clean
														
 
															+
														
 
															+
														
 
															+def clean_chars(text, charsets=whitespace):
														
 
															+    """
														
 
															+    按照字符集，删除字符
														
 
															+
														
 
															+    :param str text: 文本
														
 
															+    :param charsets: 字符集
														
 
															+    :return: 干净的文本
														
 
															+    """
														
 
															+    if text is not None:
														
 
															+        for char in charsets:
														
 
															+            if char in text:
														
 
															+                text = text.replace(char, '')
														
 
															+    return text
														
 
															+
														
 
															+
														
 
															 def get_signature(content: str) -> str:
														
 
															     """
														
 
															     十六进制数字字符串形式摘要值
														
@@ -31,6 +100,15 @@ def get_signature(content: str) -> str:
 
															     return sha1.hexdigest()
														
 
															+def get_md5(val):
														
 
															+    md5 = hashlib.md5()
														
 
															+    if isinstance(val, bytes):
														
 
															+        md5.update(str(val).encode("utf-8"))
														
 
															+    elif isinstance(val, str):
														
 
															+        md5.update(val.encode("utf-8"))
														
 
															+    return md5.hexdigest()
														
 
															+
														
 
															+
														
 
															 def text_search(content: str) -> SearchText:
														
 
															     """
														
 
															     中文检索
														
@@ -50,115 +128,93 @@ def int2long(param: int):
 
															     """int 转换成 long """
														
 
															     return bson.int64.Int64(param)
														
 
															-def get_spiders(menus):
														
 
															-    db = MongoDB(db="editor")
														
 
															-    for menu in menus:
														
 
															-        spider_info = db.find('luaconfig',{"code":menu.code})
														
 
															-        if len(spider_info) >0:
														
 
															-            if spider_info[0].get("state") not in (11,):
														
 
															-                menus.remove(menu)
														
 
															-
														
 
															-def wechat_warning(
														
 
															-    message,
														
 
															-    message_prefix=None,
														
 
															-    rate_limit=None,
														
 
															-    url=None,
														
 
															-    user_phone=None,
														
 
															-    all_users: bool = None,
														
 
															-):
														
 
															-    """企业微信报警"""
														
 
															-
														
 
															-    # 为了加载最新的配置
														
 
															-    rate_limit = rate_limit if rate_limit is not None else WARNING_INTERVAL
														
 
															-    url = url or WECHAT_WARNING_URL
														
 
															-    user_phone = user_phone or WECHAT_WARNING_PHONE
														
 
															-    all_users = all_users if all_users is not None else WECHAT_WARNING_ALL
														
 
															-
														
 
															-    if isinstance(user_phone, str):
														
 
															-        user_phone = [user_phone] if user_phone else []
														
 
															-
														
 
															-    if all_users is True or not user_phone:
														
 
															-        user_phone = ["@all"]
														
 
															-
														
 
															-    if not all([url, message]):
														
 
															-        return
														
 
															-
														
 
															-    data = {
														
 
															-        "msgtype": "text",
														
 
															-        "text": {"content": message, "mentioned_mobile_list": user_phone},
														
 
															-    }
														
 
															-    headers = {"Content-Type": "application/json"}
														
 
															+def njpc_hpsj_filt_keywords(text: str, special_kw=None):
														
 
															+    if special_kw is None:
														
 
															+        special_kw = {}
														
 
															+
														
 
															+    keywords = {'项目', '工程', '验收', '评价', *special_kw}
														
 
															-    try:
														
 
															-        response = requests.post(
														
 
															-            url, headers=headers, data=json.dumps(data).encode("utf8")
														
 
															-        )
														
 
															-        result = response.json()
														
 
															-        response.close()
														
 
															-        if result.get("errcode") == 0:
														
 
															-            return True
														
 
															+    for keyword in keywords:
														
 
															+        result = re.match(f'.*{keyword}', text, re.S)
														
 
															+        if result is not None:
														
 
															+            return True  # 需要采集
														
 
															+    else:
														
 
															+        return False     # 丢弃
														
 
															+
														
 
															+
														
 
															+# 拟建爬虫字段正则抽取
														
 
															+def njpc_fields_extract(html, data_item, is_clean=False):
														
 
															+    """
														
 
															+        拟建爬虫字段正则抽取
														
 
															+    :param str html: 页面源码
														
 
															+    :param Items data_item: 详情页item
														
 
															+    :param bool is_clean: 是否对源码进行清洗
														
 
															+    :return:
														
 
															+    """
														
 
															+    if is_clean:
														
 
															+        html = substitute(html)
														
 
															+
														
 
															+    data_item.title = data_item.projectname
														
 
															+    projectname = re.findall('项目名称(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    approvecode = re.findall('项目代码(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    approvecontent = re.findall('(?:事项名称|审批事项)(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    owner = re.findall('建设(?:单位|单位名称)(?:<[^>]+>|)[:|：](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    projectaddr = re.findall('建设(?:地点|地址)(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    total_investment = re.findall('总投资(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    project_person = re.findall('联系人(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    project_phone = re.findall('联系(?:电话|方式)(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    approvedept = re.findall('审批部门(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    approvenumber = re.findall('(?:审批|批准)文号(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    approvetime = re.findall('审批时间(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+    project_scale = "".join(re.findall('建设(?:内容|内容[及|与|和]规模|规模|规模[及|与|和]内容)(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S))
														
 
															+    project_completedate = re.findall('竣工日期(?:<[^>]+>|)[：|:](?:<[^>]+>|)(.*?)<', html, re.S)
														
 
															+
														
 
															+    if project_scale:
														
 
															+        construction_area = search('[总]*\S*建筑[面|面积]*[约|为]*(.*?)[。|，|,|;]', project_scale)
														
 
															+        floor_area = search('[总]*\S*占地[面|面积]*[约|为]*(.*?)[。|，|,|;]', project_scale)
														
 
															+        if not construction_area:
														
 
															+            construction_area = ""
														
 
															         else:
														
 
															-            raise Exception(result.get("errmsg"))
														
 
															-    except Exception as e:
														
 
															-        log.error("报警发送失败。 报警内容 {}, error: {}".format(message, e))
														
 
															-        return False
														
 
															-
														
 
															-class JyBasicException(Exception):
														
 
															-
														
 
															-    def __init__(self, code: int, reason: str, **kwargs):
														
 
															-        self.code = code
														
 
															-        self.reason = reason
														
 
															-        self.err_details = kwargs
														
 
															-        for key, val in kwargs.items():
														
 
															-            setattr(self, key, val)
														
 
															-
														
 
															-class CustomCheckError(JyBasicException):
														
 
															-
														
 
															-    def __init__(self, code: int = 10002, reason: str = '特征条件检查异常', **kwargs):
														
 
															-        self.code = code
														
 
															-        self.reason = reason
														
 
															-        self.err_details = kwargs
														
 
															-        for key, val in kwargs.items():
														
 
															-            setattr(self, key, val)
														
 
															-class HtmlEmptyError(JyBasicException):
														
 
															-
														
 
															-    def __init__(self, code: int = 10002, reason: str = '正文获取异常，正文为空', **kwargs):
														
 
															-        self.code = code
														
 
															-        self.reason = reason
														
 
															-        self.err_details = kwargs
														
 
															-        for key, val in kwargs.items():
														
 
															-            setattr(self, key, val)
														
 
															-
														
 
															-class CheckPrePareRequest:
														
 
															-
														
 
															-    def __init__(self):
														
 
															-        self.crawl_keywords = {
														
 
															-            '招标', '流标', '评标', '询价', '中标候选人', '抽签', '谈判', '中选', '意见征询',
														
 
															-            '更正公告', '废标', '补遗', '议价', '邀请', '资格预审', '竞标', '变更', '遴选',
														
 
															-            '磋商', '项目', '评审', '询比', '开标', '澄清', '比选', '中止', '采购', '竟价',
														
 
															-            '招投标', '拟建', '成交', '中标', '竞争性谈判', '工程', '验收公告', '更正',
														
 
															-            '单一来源', '变更公告', '合同', '违规', '评判', '监理', '竞价', '答疑',
														
 
															-            '终止', '系统'
														
 
															-        }
														
 
															-
														
 
															-    def check_crawl_title(self, title: str):
														
 
															-        for keyword in self.crawl_keywords:
														
 
															-            valid_keyword = re.search(keyword, title)
														
 
															-            if valid_keyword is not None:
														
 
															-                break
														
 
															+            construction_area = re.sub(":|：", "", construction_area)
														
 
															+
														
 
															+        if not floor_area:
														
 
															+            floor_area = ""
														
 
															         else:
														
 
															-            # raise CustomCheckError(code=10106, reason='标题未检索到采集关键词', title=title)
														
 
															-            return 10106,'标题未检索到采集关键词'
														
 
															-        return 200,'ok'
														
 
															+            floor_area = re.sub(":|：", "", floor_area)
														
 
															+
														
 
															+        data_item.project_scale = project_scale
														
 
															+        data_item.project_scale_info = {
														
 
															+            "construction_area": construction_area,
														
 
															+            "floor_area": floor_area,
														
 
															+        }  # 建设规模及主要内容
														
 
															+
														
 
															+    fields_dict = {
														
 
															+        "projectname": projectname,
														
 
															+        "owner": owner,
														
 
															+        "total_investment": total_investment,
														
 
															+        "project_person": project_person,
														
 
															+        "project_phone": project_phone,
														
 
															+        "approvedept": approvedept,
														
 
															+        "approvetime": approvetime,
														
 
															+        "project_completedate": project_completedate,
														
 
															+        "projectaddr": projectaddr,
														
 
															+        "approvecode": approvecode,
														
 
															+        "approvecontent": approvecontent,
														
 
															+        "approvenumber": approvenumber
														
 
															+    }
														
 
															+    for fields_k, fields_v in fields_dict.items():
														
 
															+        if fields_v:
														
 
															+            fields_v[0] = clean_chars(fields_v[0])
														
 
															+            if not fields_v[0]:
														
 
															+                continue
														
 
															+            data_item[fields_k] = re.sub(
														
 
															+                r'([,|.|。|)|）|，|；|;|?|&|$|#|@|!|！|%|*|\'|"|‘|’|“|￥|？| ]*?)$',
														
 
															+                "", fields_v[0])
														
 
															-    def __check(self, rows: dict):
														
 
															-        title, publish_time = rows['title'], rows['l_np_publishtime']
														
 
															-        self.check_crawl_title(title)
														
 
															+    return data_item
														
 
															-    def __call__(self, rows: dict, *args, **kwargs):
														
 
															-        self.__check(rows)
														
 
															 def get_proxy():
														
 
															     headers = {
														
@@ -167,32 +223,39 @@ def get_proxy():
 
															     proxy = requests.get("http://cc.spdata.jianyu360.com/crawl/proxy/socks5/fetch", headers=headers).json()
														
 
															     print(f"切换代理：{proxy.get('data')}")
														
 
															     return proxy.get("data").get("http")
														
 
															-import json
														
 
															-class Obj(object):
														
 
															-    def __init__(self, dict_):
														
 
															-        self.__dict__.update(dict_)
														
 
															-
														
 
															-def get_argvs():
														
 
															-    argvs = {"next_page":False,"max_page":10}
														
 
															-    for item in sys.argv[1:]:
														
 
															-        print(item)
														
 
															-        if item.startswith("--"):
														
 
															-            argvs[item.replace("--", "").split('=')[0]] = int(item.split('=')[-1])
														
 
															-    return json.loads(json.dumps(argvs), object_hook=Obj)
														
 
															 def search(pattern, string):
														
 
															     result = re.search(pattern, string)
														
 
															     if result:
														
 
															         return result.groups()[0]
														
 
															+
														
 
															 def search_construction(string):
														
 
															     result = re.search('pattern', string)
														
 
															     if result:
														
 
															         return result.groups()[0]
														
 
															+
														
 
															 def search_floor(string):
														
 
															     result = re.search('pattern', string)
														
 
															     if result:
														
 
															         return result.groups()[0]
														
 
															+
														
 
															+def get_floor_area(project_scale):
														
 
															+    floor_area = search('[总]*\S*占地[面|面积]*[约|为]*(.*?)[。|，|,|;]', project_scale)
														
 
															+    if not floor_area:
														
 
															+        floor_area = ""
														
 
															+    else:
														
 
															+        floor_area = floor_area.replace(':', '').replace('：', '')
														
 
															+    return floor_area
														
 
															+
														
 
															+
														
 
															+def get_construction_area(project_scale):
														
 
															+    construction_area = search('[总]*\S*建筑[面|面积]*[约|为]*(.*?)[。|，|,|;]', project_scale)
														
 
															+    if not construction_area:
														
 
															+        construction_area = ""
														
 
															+    else:
														
 
															+        construction_area = construction_area.replace(':', '').replace('：', '')
														
 
															+    return construction_area
														
--- a/NoteWork/python乱码识别/__init__.py
+++ b/NoteWork/python乱码识别/__init__.py
--- a/NoteWork/文档/img.png
+++ b/NoteWork/文档/img.png
--- a/NoteWork/文档/img_1.png
+++ b/NoteWork/文档/img_1.png
--- a/NoteWork/文档/img_10.png
+++ b/NoteWork/文档/img_10.png
--- a/NoteWork/文档/img_11.png
+++ b/NoteWork/文档/img_11.png
--- a/NoteWork/文档/img_12.png
+++ b/NoteWork/文档/img_12.png
--- a/NoteWork/文档/img_13.png
+++ b/NoteWork/文档/img_13.png
--- a/NoteWork/文档/img_2.png
+++ b/NoteWork/文档/img_2.png
--- a/NoteWork/文档/img_3.png
+++ b/NoteWork/文档/img_3.png
--- a/NoteWork/文档/img_4.png
+++ b/NoteWork/文档/img_4.png
--- a/NoteWork/文档/img_5.png
+++ b/NoteWork/文档/img_5.png
--- a/NoteWork/文档/img_6.png
+++ b/NoteWork/文档/img_6.png
--- a/NoteWork/文档/img_7.png
+++ b/NoteWork/文档/img_7.png
--- a/NoteWork/文档/img_8.png
+++ b/NoteWork/文档/img_8.png
--- a/NoteWork/文档/img_9.png
+++ b/NoteWork/文档/img_9.png
--- a/NoteWork/文档/update.md
+++ b/NoteWork/文档/update.md
@@ -1,29 +0,0 @@
 
															-### 1、快照页：已完成
														
 
															-    附件采集方法        
														
 
															-### 2、关联lua爬虫接口:已完成
														
 
															-    待开发爬虫任务管理  #
														
 
															-### 3、报警修改   爬虫报警规则：已完成
														
 
															-	1、失败一定次数  
														
 
															-	2、爬虫当前任务成功率过低
														
 
															-	3、爬虫导出数据失败一定次数
														
 
															-	4、爬虫任务停滞
														
 
															-	5、爬虫异常停止
														
 
															-```python
														
 
															-
														
 
															-
														
 
															-```
														
 
															-
														
 
															-### 4、爬虫校验，同时只运行一个  *无需修改 
														
 
															-    爬虫为分布式爬虫，后续新建任务不会重新运行，
														
 
															-	会读取当前爬虫中未完成的任务，协同执行  
														
 
															-    /// 若两个爬虫同一时间开始执行，这时无法处理 
														
 
															-
														
 
															-
														
 
															-### 5、重新采集的一个字段  :已完成
														
 
															-    关于正文/其他数据采集为空，这里进行了处理，停止当前管道线程，把其当做错误请求处理，
														
 
															-	五次容错机会，五次均失败后丢弃当前连接，等待下一轮爬虫执行时重试
														
 
															-
														
 
															-### 6、快速定位，项目爬虫代码、指定人员  :可指定人员、获取爬虫名称，但无法直接跳转到爬虫文件 
														
 
															-        可分层级，每个角色-单独一个爬虫，按地区分文件 以便快速查找爬虫文件
														
 
															-### 7、管理平台消息自定义  无需改动
														
 
															-    # 两个消息发送方式：爬虫结束时发送，爬虫异常结束时报错
														
--- a/NoteWork/文档/开发文档.md
+++ b/NoteWork/文档/开发文档.md
@@ -1,108 +0,0 @@
 
															-
														
 
															-## feapder爬虫开发文档
														
 
															-#### 本地调试环境安装
														
 
															-    python环境，python安装
														
 
															-    redis + mongo
														
 
															-#### 创建爬虫
														
 
															-    命令创建  create -s ***** 4
														
 
															-
														
 
															-### 编辑爬虫
														
 
															-1、编辑站点信息、栏目信息等基础等
														
 
															-```python
														
 
															-	def start_callback(self):
														
 
															-		Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
														
 
															-	    self.site= "测试地址平台采集"
														
 
															-        self.menus = [
														
 
															-             # Menu('Ceshidizhi抓取栏目', 'Ceshidizhi爬虫code', "自定义参数", 1),
														
 
															-             # Menu('Ceshidizhi抓取栏目', 'Ceshidizhi爬虫code', "Notice", 1),
														
 
															-             Menu('政府采购-采购公告', 'hn_ceshidizhi_zfcg_cggg', "zfcg/cggg", 1),
														
 
															-             Menu('综合其他-中标前公示', 'hn_ceshidizhi_zhqt_zbqgs', "zhqt/zbqgs", 1),
														
 
															-         ]
														
 
															-         
														
 
															-	def start_requests(self):
														
 
															-    	for menu in self.menus:
														
 
															-        	for page in range(1,menu.crawl_page+1):
														
 
															-            	start_url = f'http://www.ceshi.com/{menu.types}'
														
 
															-	            yield feapder.Request(url=start_url, item=menu._asdict(), proxies=False)
														
 
															-```
														
 
															-
														
 
															-2、根据栏目信息，配置相对应的起始连接，代理ip默认为未启用，如需启用代理，将Proxies修改为True
														
 
															-
														
 
															-3、编辑列表页解析的xpath规则/json解析字段
														
 
															-```python
														
 
															-    def parse(self, request, response): #xpath方式:
														
 
															-        menu = request.item
														
 
															-        dedup = Dedup(Dedup.BloomFilter)
														
 
															-        href_list = []  # 不用修改
														
 
															-        info_list = response.xpath("//table[@class='p1']/tr[position()>1]")
														
 
															-        for info in info_list:
														
 
															-            href = info.xpath('./td[1]/a/@href').extract_first().strip()
														
 
															-            title = info.xpath('./td[1]/a/text()').extract_first().strip()
														
 
															-            
														
 
															-            '''保证时间格式为 0000-00-00 00:00:00 或 0000-00-00格式'''
														
 
															-            create_time = info.xpath('./td[5]/text()').extract_first().strip()
														
 
															-            
														
 
															-            '''如果有省市信息，一定要按具体规则解析或切割省市信息'''
														
 
															-            area = info.xpath('./td[4]/text()').extract_first()
														
 
															-            city = info.xpath('./td[4]/text()').extract_first()   #城市
														
 
															-            area = area if area else "全国"   #省份
														
 
															-            city = city if city else ""   #省份
														
 
															-            
														
 
															-    def parse(self, request, response): #json方式：
														
 
															-        menu = request.item
														
 
															-        dedup = Dedup(Dedup.BloomFilter)
														
 
															-        href_list = []
														
 
															-        info_list = response.json.get("data").get("list")
														
 
															-        for info in info_list:
														
 
															-            href = info.get("href")
														
 
															-            title = info.get("title")
														
 
															-            crate_time = info.get("create_time")
														
 
															-            area = info.get("area")
														
 
															-            city = info.get("city")
														
 
															-            area = area if area else "全国"  # 省份
														
 
															-            city = city if city else ""  # 城市
														
 
															-```
														
 
															-
														
 
															-4、编辑详情页解析的xpath规则/部分代码编写
														
 
															-```python
														
 
															-    list_item =  MgpListItem()
														
 
															-    list_item.parse = "self.detail_get"
														
 
															-    list_item.parser_name = "details"
														
 
															-    list_item.item = data_item.to_dict
														
 
															-    list_item.deal_detail ['//div[@class="content"]']
														
 
															-    list_item.proxies = False
														
 
															-    list_item.parse_url = href
														
 
															-    list_item.author = 'mgp' # 自定author,如无author，则根据文件夹的名称自成
														
 
															-    list_item.pri = 1
														
 
															-    list.files={
														
 
															-        "list_xpath":'//div[@class="notice-foot"]/a',
														
 
															-        "url_xpath":'./@href',
														
 
															-        "name_xpath":'./text()',
														
 
															-        "files_type":('zip','doxc','ftp'), # 需要下载的附件类型
														
 
															-        "file_type":'docx',   # 默认的附件类型，用于url中未带附件类型的
														
 
															-        "url_key":'http',  # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
														
 
															-        "host":'http://www.ceshi.com',  # 需要拼接url的host
														
 
															-            }
														
 
															-    href_list.append(href)
														
 
															-    yield list_item
														
 
															-```
														
 
															-
														
 
															-### 部署爬虫
														
 
															-    1、将编辑好的爬虫放到自己的爬虫文件夹之下，下面是示例
														
 
															-![在这里插入图片描述](https://img-blog.csdnimg.cn/061efe986db8402bb13b482c8d447f91.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56u55LmL56yR,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
														
 
															-
														
 
															-![在这里插入图片描述](https://img-blog.csdnimg.cn/75d4c7851a2e435cafac29f627faaa4b.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56u55LmL56yR,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
														
 
															-
														
 
															-    2、根据爬虫数据采集量创建定时任务
														
 
															-![在这里插入图片描述](https://img-blog.csdnimg.cn/227f32935f8e4f4fa6b19bea96805b37.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56u55LmL56yR,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
														
 
															-![在这里插入图片描述](https://img-blog.csdnimg.cn/3f4e2bffe2e042eca0cbc35b99817f81.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56u55LmL56yR,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
														
 
															-
														
 
															-
														
 
															-
														
 
															-    3、创建好定时任务后点击启用即可
														
 
															-
														
 
															-![在这里插入图片描述](https://img-blog.csdnimg.cn/ffe8e2ec981d4f798b7efa44406926be.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56u55LmL56yR,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
														
 
															-
														
 
															-
														
 
															-
														
 
															-
														
--- a/README.md
+++ b/README.md
@@ -1,2 +1 @@
 
															-# 
														
 
															-
														
 
															+#
-															-#
-															-
+															+#