1 年之前 · b18c426b43
--- a/FworkSpider/feapder/buffer/item_buffer.py
+++ b/FworkSpider/feapder/buffer/item_buffer.py
@@ -8,45 +8,42 @@ Created on 2018-06-19 17:17
 
				 @email: boris_liu@foxmail.com
			
 
				 """
			
 
				 
			
 
				-import importlib
			
 
				 import threading
			
 
				 from queue import Queue
			
 
				 
			
 
				 import feapder.setting as setting
			
 
				 import feapder.utils.tools as tools
			
 
				-from feapder.db.redisdb import RedisDB
			
 
				+from feapder.db.rabbitMq import RabbitMQ
			
 
				 from feapder.dedup import Dedup
			
 
				 from feapder.network.item import Item, UpdateItem
			
 
				 from feapder.pipelines import BasePipeline
			
 
				-from feapder.pipelines.mysql_pipeline import MysqlPipeline
			
 
				 from feapder.utils import metrics
			
 
				 from feapder.utils.log import log
			
 
				 
			
 
				 MAX_ITEM_COUNT = 5000  # 缓存中最大item数
			
 
				 UPLOAD_BATCH_MAX_SIZE = 1000
			
 
				 
			
 
				-MYSQL_PIPELINE_PATH = "feapder.pipelines.mysql_pipeline.MysqlPipeline"
			
 
				-
			
 
				 
			
 
				 class ItemBuffer(threading.Thread):
			
 
				     dedup = None
			
 
				-    __redis_db = None
			
 
				 
			
 
				-    def __init__(self, redis_key, task_table=None):
			
 
				+    def __init__(self, redis_key, rabbitmq=None):
			
 
				         if not hasattr(self, "_table_item"):
			
 
				             super(ItemBuffer, self).__init__()
			
 
				 
			
 
				             self._thread_stop = False
			
 
				             self._is_adding_to_db = False
			
 
				             self._redis_key = redis_key
			
 
				-            self._task_table = task_table
			
 
				 
			
 
				             self._items_queue = Queue(maxsize=MAX_ITEM_COUNT)
			
 
				 
			
 
				-            self._table_request = setting.TAB_REQUESTS.format(redis_key=redis_key)
			
 
				-            self._table_failed_items = setting.TAB_FAILED_ITEMS.format(
			
 
				-                redis_key=redis_key
			
 
				-            )
			
 
				+            self._rabbitmq = rabbitmq or RabbitMQ()
			
 
				+            # 任务队列
			
 
				+            self._tab_requests = setting.TAB_REQUESTS.format(redis_key=redis_key)
			
 
				+            self._rabbitmq.declare(queue=self._tab_requests)
			
 
				+            # 数据保存失败队列
			
 
				+            self._tab_failed_items = setting.TAB_FAILED_ITEMS.format(redis_key=redis_key)
			
 
				+            self._rabbitmq.declare(queue=self._tab_failed_items)
			
 
				 
			
 
				             self._item_tables = {
			
 
				                 # 'item_name': 'table_name' # 缓存item名与表名对应关系
			
@@ -57,10 +54,6 @@ class ItemBuffer(threading.Thread):
 
				             }
			
 
				 
			
 
				             self._pipelines = self.load_pipelines()
			
 
				-
			
 
				-            self._have_mysql_pipeline = MYSQL_PIPELINE_PATH in setting.ITEM_PIPELINES
			
 
				-            self._mysql_pipeline = None
			
 
				-
			
 
				             if setting.ITEM_FILTER_ENABLE and not self.__class__.dedup:
			
 
				                 self.__class__.dedup = Dedup(
			
 
				                     to_md5=False, **setting.ITEM_FILTER_SETTING
			
@@ -71,34 +64,16 @@ class ItemBuffer(threading.Thread):
 
				             # 导出失败的次数 TODO 非air爬虫使用redis统计
			
 
				             self.export_falied_times = 0
			
 
				 
			
 
				-    @property
			
 
				-    def redis_db(self):
			
 
				-        if self.__class__.__redis_db is None:
			
 
				-            self.__class__.__redis_db = RedisDB()
			
 
				-
			
 
				-        return self.__class__.__redis_db
			
 
				-
			
 
				     def load_pipelines(self):
			
 
				         pipelines = []
			
 
				         for pipeline_path in setting.ITEM_PIPELINES:
			
 
				-            module, class_name = pipeline_path.rsplit(".", 1)
			
 
				-            pipeline_cls = importlib.import_module(module).__getattribute__(class_name)
			
 
				-            pipeline = pipeline_cls()
			
 
				+            pipeline = tools.import_cls(pipeline_path)()
			
 
				             if not isinstance(pipeline, BasePipeline):
			
 
				                 raise ValueError(f"{pipeline_path} 需继承 feapder.pipelines.BasePipeline")
			
 
				             pipelines.append(pipeline)
			
 
				 
			
 
				         return pipelines
			
 
				 
			
 
				-    @property
			
 
				-    def mysql_pipeline(self):
			
 
				-        if not self._mysql_pipeline:
			
 
				-            module, class_name = MYSQL_PIPELINE_PATH.rsplit(".", 1)
			
 
				-            pipeline_cls = importlib.import_module(module).__getattribute__(class_name)
			
 
				-            self._mysql_pipeline = pipeline_cls()
			
 
				-
			
 
				-        return self._mysql_pipeline
			
 
				-
			
 
				     def run(self):
			
 
				         self._thread_stop = False
			
 
				         while not self._thread_stop:
			
@@ -246,17 +221,11 @@ class ItemBuffer(threading.Thread):
 
				     def __export_to_db(self, table, datas, is_update=False, update_keys=()):
			
 
				         for pipeline in self._pipelines:
			
 
				             if is_update:
			
 
				-                if table == self._task_table and not isinstance(
			
 
				-                    pipeline, MysqlPipeline
			
 
				-                ):
			
 
				-                    continue
			
 
				-
			
 
				                 if not pipeline.update_items(table, datas, update_keys=update_keys):
			
 
				                     log.error(
			
 
				                         f"{pipeline.__class__.__name__} 更新数据失败. table: {table}  items: {datas}"
			
 
				                     )
			
 
				                     return False
			
 
				-
			
 
				             else:
			
 
				                 if not pipeline.save_items(table, datas):
			
 
				                     log.error(
			
@@ -264,16 +233,6 @@ class ItemBuffer(threading.Thread):
 
				                     )
			
 
				                     return False
			
 
				 
			
 
				-        # 若是任务表, 且上面的pipeline里没mysql，则需调用mysql更新任务
			
 
				-        if not self._have_mysql_pipeline and is_update and table == self._task_table:
			
 
				-            if not self.mysql_pipeline.update_items(
			
 
				-                table, datas, update_keys=update_keys
			
 
				-            ):
			
 
				-                log.error(
			
 
				-                    f"{self.mysql_pipeline.__class__.__name__} 更新数据失败. table: {table}  items: {datas}"
			
 
				-                )
			
 
				-                return False
			
 
				-
			
 
				         self.metric_datas(table=table, datas=datas)
			
 
				         return True
			
 
				 
			
@@ -342,7 +301,8 @@ class ItemBuffer(threading.Thread):
 
				 
			
 
				             # 删除做过的request
			
 
				             if requests:
			
 
				-                self.redis_db.zrem(self._table_request, requests)
			
 
				+                # self._rabbitmq.add(self._tab_requests, requests)
			
 
				+                pass
			
 
				 
			
 
				             # 去重入库
			
 
				             if setting.ITEM_FILTER_ENABLE:
			
@@ -353,12 +313,13 @@ class ItemBuffer(threading.Thread):
 
				 
			
 
				             if self.export_retry_times > setting.EXPORT_DATA_MAX_RETRY_TIMES:
			
 
				                 if self._redis_key != "air_spider":
			
 
				-                    # 失败的item记录到redis
			
 
				-                    self.redis_db.sadd(self._table_failed_items, failed_items)
			
 
				+                    # 失败的item记录到rabbitmq
			
 
				+                    self._rabbitmq.add(self._tab_failed_items, failed_items)
			
 
				 
			
 
				                     # 删除做过的request
			
 
				                     if requests:
			
 
				-                        self.redis_db.zrem(self._table_request, requests)
			
 
				+                        # self.redis_db.zrem(self._table_request, requests)
			
 
				+                        print(f'做过的requests数量: {len(requests)}')
			
 
				 
			
 
				                     log.error(
			
 
				                         "入库超过最大重试次数，不再重试，数据记录到redis，items:\n {}".format(
			
@@ -373,10 +334,7 @@ class ItemBuffer(threading.Thread):
 
				                     tip.append("不执行回调")
			
 
				                 if requests:
			
 
				                     tip.append("不删除任务")
			
 
				-                    exists = self.redis_db.zexists(self._table_request, requests)
			
 
				-                    for exist, request in zip(exists, requests):
			
 
				-                        if exist:
			
 
				-                            self.redis_db.zadd(self._table_request, requests, 300)
			
 
				+                    self._rabbitmq.add(self._tab_requests, requests)
			
 
				 
			
 
				                 if setting.ITEM_FILTER_ENABLE:
			
 
				                     tip.append("数据不入去重库")
			
--- a/FworkSpider/feapder/buffer/request_buffer.py
+++ b/FworkSpider/feapder/buffer/request_buffer.py
@@ -13,7 +13,7 @@ import threading
 
				 
			
 
				 import feapder.setting as setting
			
 
				 import feapder.utils.tools as tools
			
 
				-from feapder.db.redisdb import RedisDB
			
 
				+from feapder.db.rabbitMq import RabbitMQ
			
 
				 from feapder.dedup import Dedup
			
 
				 from feapder.utils.log import log
			
 
				 
			
@@ -23,7 +23,7 @@ MAX_URL_COUNT = 1000  # 缓存中最大request数
 
				 class RequestBuffer(threading.Thread):
			
 
				     dedup = None
			
 
				 
			
 
				-    def __init__(self, redis_key):
			
 
				+    def __init__(self, redis_key, rabbitmq=None):
			
 
				         if not hasattr(self, "_requests_deque"):
			
 
				             super(RequestBuffer, self).__init__()
			
 
				 
			
@@ -32,12 +32,14 @@ class RequestBuffer(threading.Thread):
 
				 
			
 
				             self._requests_deque = collections.deque()
			
 
				             self._del_requests_deque = collections.deque()
			
 
				-            self._db = RedisDB()
			
 
				 
			
 
				-            self._table_request = setting.TAB_REQUESTS.format(redis_key=redis_key)
			
 
				-            self._table_failed_request = setting.TAB_FAILED_REQUESTS.format(
			
 
				-                redis_key=redis_key
			
 
				-            )
			
 
				+            self._rabbitmq = rabbitmq or RabbitMQ()
			
 
				+            # 任务队列
			
 
				+            self._tab_requests = setting.TAB_REQUESTS.format(redis_key=redis_key)
			
 
				+            self._rabbitmq.declare(queue=self._tab_requests)
			
 
				+            # 失败任务队列
			
 
				+            self._tab_failed_requests = setting.TAB_FAILED_REQUESTS.format(redis_key=redis_key)
			
 
				+            self._rabbitmq.declare(queue=self._tab_failed_requests)
			
 
				 
			
 
				             if not self.__class__.dedup and setting.REQUEST_FILTER_ENABLE:
			
 
				                 self.__class__.dedup = Dedup(
			
@@ -58,20 +60,25 @@ class RequestBuffer(threading.Thread):
 
				         self._thread_stop = True
			
 
				         self._started.clear()
			
 
				 
			
 
				+    def get_failed_requests_count(self):
			
 
				+        return self._rabbitmq.get_message_count(self._tab_failed_requests)
			
 
				+
			
 
				     def put_request(self, request):
			
 
				         self._requests_deque.append(request)
			
 
				 
			
 
				         if self.get_requests_count() > MAX_URL_COUNT:  # 超过最大缓存，主动调用
			
 
				             self.flush()
			
 
				 
			
 
				-    def put_del_request(self, request):
			
 
				-        self._del_requests_deque.append(request)
			
 
				-
			
 
				     def put_failed_request(self, request, table=None):
			
 
				         try:
			
 
				             request_dict = request.to_dict
			
 
				-            self._db.zadd(
			
 
				-                table or self._table_failed_request, request_dict, request.priority
			
 
				+            if table is not None:
			
 
				+                # 声明额外的队列
			
 
				+                self._rabbitmq.declare(queue=table)
			
 
				+
			
 
				+            self._rabbitmq.add(
			
 
				+                table or self._tab_failed_requests,
			
 
				+                request_dict
			
 
				             )
			
 
				         except Exception as e:
			
 
				             log.exception(e)
			
@@ -108,26 +115,27 @@ class RequestBuffer(threading.Thread):
 
				 
			
 
				             priority = request.priority
			
 
				 
			
 
				-            # 如果需要去重并且库中已重复 则continue
			
 
				+            # 如果需要去重并且库中已重复,则continue
			
 
				             if (
			
 
				                 request.filter_repeat
			
 
				                 and setting.REQUEST_FILTER_ENABLE
			
 
				                 and not self.__class__.dedup.add(request.fingerprint)
			
 
				             ):
			
 
				-                log.debug("request已存在  url = %s" % request.url)
			
 
				+                log.debug("request已存在 url = %s" % request.url)
			
 
				                 continue
			
 
				             else:
			
 
				                 request_list.append(str(request.to_dict))
			
 
				                 prioritys.append(priority)
			
 
				 
			
 
				+            # 入库(超过上限[MAX_URL_COUNT]执行)
			
 
				             if len(request_list) > MAX_URL_COUNT:
			
 
				-                self._db.zadd(self._table_request, request_list, prioritys)
			
 
				+                self._rabbitmq.add(self._tab_requests, request_list)
			
 
				                 request_list = []
			
 
				                 prioritys = []
			
 
				 
			
 
				-        # 入库
			
 
				+        # 入库(小于上限[MAX_URL_COUNT]执行)
			
 
				         if request_list:
			
 
				-            self._db.zadd(self._table_request, request_list, prioritys)
			
 
				+            self._rabbitmq.add(self._tab_requests, request_list)
			
 
				 
			
 
				         # 执行回调
			
 
				         for callback in callbacks:
			
@@ -136,16 +144,4 @@ class RequestBuffer(threading.Thread):
 
				             except Exception as e:
			
 
				                 log.exception(e)
			
 
				 
			
 
				-        # 删除已做任务
			
 
				-        if self._del_requests_deque:
			
 
				-            request_done_list = []
			
 
				-            while self._del_requests_deque:
			
 
				-                request_done_list.append(self._del_requests_deque.popleft())
			
 
				-
			
 
				-            # 去掉request_list中的requests， 否则可能会将刚添加的request删除
			
 
				-            request_done_list = list(set(request_done_list) - set(request_list))
			
 
				-
			
 
				-            if request_done_list:
			
 
				-                self._db.zrem(self._table_request, request_done_list)
			
 
				-
			
 
				         self._is_adding_to_db = False
			
--- a/FworkSpider/feapder/core/collector.py
+++ b/FworkSpider/feapder/core/collector.py
@@ -1,11 +1,10 @@
 
				 # -*- coding: utf-8 -*-
			
 
				 """
			
 
				-Created on 2016-12-23 11:24
			
 
				+Created on 2023-09-21 11:24
			
 
				 ---------
			
 
				 @summary: request 管理
			
 
				 ---------
			
 
				-@author: Boris
			
 
				-@email: boris_liu@foxmail.com
			
 
				+@author: dzr
			
 
				 """
			
 
				 import threading
			
 
				 import time
			
@@ -13,14 +12,17 @@ from queue import Queue, Empty
 
				 
			
 
				 import feapder.setting as setting
			
 
				 import feapder.utils.tools as tools
			
 
				-from feapder.db.redisdb import RedisDB
			
 
				+from feapder.db.rabbitMq import RabbitMQ, RabbitMQMessage
			
 
				 from feapder.network.request import Request
			
 
				 from feapder.utils.log import log
			
 
				 
			
 
				+# 执行 eval 需要的全局对象
			
 
				+tools.load_globals(RabbitMQMessage)
			
 
				+
			
 
				 
			
 
				 class Collector(threading.Thread):
			
 
				 
			
 
				-    def __init__(self, redis_key):
			
 
				+    def __init__(self, redis_key, rabbitmq=None):
			
 
				         """
			
 
				         @summary:
			
 
				         ---------
			
@@ -30,29 +32,23 @@ class Collector(threading.Thread):
 
				         """
			
 
				 
			
 
				         super(Collector, self).__init__()
			
 
				-        self._db = RedisDB()
			
 
				 
			
 
				         self._thread_stop = False
			
 
				 
			
 
				+        self._rabbitmq = rabbitmq or RabbitMQ()
			
 
				         self._todo_requests = Queue(maxsize=setting.COLLECTOR_TASK_COUNT)
			
 
				-
			
 
				+        # 任务队列
			
 
				         self._tab_requests = setting.TAB_REQUESTS.format(redis_key=redis_key)
			
 
				-        self._tab_spider_status = setting.TAB_SPIDER_STATUS.format(redis_key=redis_key)
			
 
				-
			
 
				-        self._spider_mark = tools.get_localhost_ip() + f"-{time.time()}"
			
 
				+        self._rabbitmq.declare(queue=self._tab_requests)
			
 
				 
			
 
				         self._interval = setting.COLLECTOR_SLEEP_TIME
			
 
				         self._request_count = setting.COLLECTOR_TASK_COUNT
			
 
				         self._is_collector_task = False
			
 
				-        self._first_get_task = True
			
 
				-
			
 
				-        self.__delete_dead_node()
			
 
				 
			
 
				     def run(self):  # step 线程入口
			
 
				         self._thread_stop = False
			
 
				         while not self._thread_stop:
			
 
				             try:
			
 
				-                self.__report_node_heartbeat()  # step 汇报节点心跳
			
 
				                 self.__input_data()
			
 
				             except Exception as e:
			
 
				                 log.exception(e)
			
@@ -65,6 +61,11 @@ class Collector(threading.Thread):
 
				         self._thread_stop = True
			
 
				         self._started.clear()
			
 
				 
			
 
				+    def __get_messages(self, request_count):
			
 
				+        messages = self._rabbitmq.get(self._tab_requests, request_count)
			
 
				+        messages = [eval(message) for message in messages]
			
 
				+        return messages
			
 
				+
			
 
				     def __input_data(self):
			
 
				         if self._request_count / setting.SPIDER_THREAD_COUNT > 1 and (
			
 
				             self._todo_requests.qsize() > setting.SPIDER_THREAD_COUNT
			
@@ -73,88 +74,21 @@ class Collector(threading.Thread):
 
				             time.sleep(0.1)
			
 
				             return
			
 
				 
			
 
				-        current_timestamp = tools.get_current_timestamp()
			
 
				-
			
 
				-        request_count = self._request_count  # 先赋值
			
 
				-        # 查询最近有心跳的节点数量
			
 
				-        spider_count = self._db.zget_count(
			
 
				-            self._tab_spider_status,
			
 
				-            priority_min=current_timestamp - (self._interval + 10),
			
 
				-            priority_max=current_timestamp,
			
 
				-        )
			
 
				-        # 根据等待节点数量，动态分配request
			
 
				-        if spider_count:
			
 
				-            # 任务数量
			
 
				-            task_count = self._db.zget_count(self._tab_requests)
			
 
				-            # 动态分配的数量 = 任务数量 / 休息的节点数量 + 1
			
 
				-            request_count = task_count // spider_count + 1
			
 
				-
			
 
				-        request_count = (
			
 
				-            request_count
			
 
				-            if request_count <= self._request_count
			
 
				-            else self._request_count
			
 
				-        )
			
 
				-
			
 
				-        if not request_count:
			
 
				-            return
			
 
				-
			
 
				-        # 当前无其他节点，并且是首次取任务，则重置丢失的任务
			
 
				-        if self._first_get_task and spider_count <= 1:
			
 
				-            datas = self._db.zrangebyscore_set_score(
			
 
				-                self._tab_requests,
			
 
				-                priority_min=current_timestamp,
			
 
				-                priority_max=current_timestamp + setting.REQUEST_LOST_TIMEOUT,
			
 
				-                score=300,
			
 
				-                count=None,
			
 
				-            )
			
 
				-            self._first_get_task = False
			
 
				-            lose_count = len(datas)
			
 
				-            if lose_count:
			
 
				-                log.info("重置丢失任务完毕，共{}条".format(len(datas)))
			
 
				-
			
 
				-        # 取任务，只取当前时间搓以内的任务，同时将取走的任务分数修改为 current_timestamp + setting.REQUEST_LOST_TIMEOUT
			
 
				-        requests_list = self._db.zrangebyscore_set_score(
			
 
				-            self._tab_requests,
			
 
				-            priority_min="-inf",
			
 
				-            priority_max=current_timestamp,
			
 
				-            score=current_timestamp + setting.REQUEST_LOST_TIMEOUT,
			
 
				-            count=request_count,
			
 
				-        )
			
 
				-
			
 
				-        # 当任务Queue存在任务且其它节点再次启动爬虫，但爬虫无任务可执行
			
 
				-        # 原因是爬虫调用间隔时间小于 REQUEST_LOST_TIMEOUT
			
 
				-        # log.debug("领取新任务完毕，共{}条".format(len(requests_list)))
			
 
				-
			
 
				-        if requests_list:
			
 
				+        # 取任务
			
 
				+        message_list = self.__get_messages(self._request_count)
			
 
				+        if message_list:
			
 
				             self._is_collector_task = True
			
 
				-            # 存request
			
 
				-            self.__put_requests(requests_list)
			
 
				+            self.__put_messages(message_list)
			
 
				         else:
			
 
				             time.sleep(0.1)
			
 
				 
			
 
				-    def __report_node_heartbeat(self):
			
 
				-        """
			
 
				-        汇报节点心跳，以便任务平均分配
			
 
				-        """
			
 
				-        self._db.zadd(
			
 
				-            self._tab_spider_status, self._spider_mark, tools.get_current_timestamp()
			
 
				-        )
			
 
				-
			
 
				-    def __delete_dead_node(self):
			
 
				-        """
			
 
				-        删除没有心跳的节点信息
			
 
				-        """
			
 
				-        self._db.zremrangebyscore(
			
 
				-            self._tab_spider_status,
			
 
				-            "-inf",
			
 
				-            tools.get_current_timestamp() - (self._interval + 10),
			
 
				-        )
			
 
				-
			
 
				-    def __put_requests(self, requests_list):
			
 
				-        for request in requests_list:
			
 
				+    def __put_messages(self, message_list):
			
 
				+        for message in message_list:
			
 
				+            delivery_tag = message.delivery_tag
			
 
				+            request = message.body
			
 
				             try:
			
 
				                 request_dict = {
			
 
				-                    "request_obj": Request.from_dict(eval(request)),
			
 
				+                    "request_obj": Request.from_dict(request),
			
 
				                     "request_redis": request,
			
 
				                 }
			
 
				             except Exception as e:
			
@@ -169,6 +103,7 @@ class Collector(threading.Thread):
 
				 
			
 
				             if request_dict:
			
 
				                 self._todo_requests.put(request_dict)
			
 
				+                self._rabbitmq.ack(self._tab_requests, delivery_tag)
			
 
				 
			
 
				     def get_request(self):
			
 
				         try:
			
@@ -179,18 +114,10 @@ class Collector(threading.Thread):
 
				 
			
 
				     def get_requests_count(self):
			
 
				         return (
			
 
				-            self._todo_requests.qsize() or self._db.zget_count(self._tab_requests) or 0
			
 
				+            self._todo_requests.qsize()
			
 
				+            or self._rabbitmq.get_message_count(queue=self._tab_requests)
			
 
				+            or 0
			
 
				         )
			
 
				 
			
 
				     def is_collector_task(self):
			
 
				         return self._is_collector_task
			
 
				-
			
 
				-    def get_spider_count(self):
			
 
				-        return self._db.zget_count(
			
 
				-            self._tab_spider_status,
			
 
				-            priority_min=tools.get_current_timestamp() - (self._interval + 10),
			
 
				-            priority_max=tools.get_current_timestamp(),
			
 
				-        )
			
 
				-
			
 
				-    def delete_spider_node(self):
			
 
				-        self._db.zrem(self._tab_spider_status, self._spider_mark)
			
--- a/FworkSpider/feapder/core/handle_failed_items.py
+++ b/FworkSpider/feapder/core/handle_failed_items.py
@@ -8,35 +8,34 @@ Created on 2022/11/18 11:33 AM
 
				 @email: boris_liu@foxmail.com
			
 
				 """
			
 
				 import bson
			
 
				+from bson import ObjectId
			
 
				 
			
 
				 import feapder.setting as setting
			
 
				 import feapder.utils.tools as tools
			
 
				 from feapder.buffer.item_buffer import ItemBuffer
			
 
				-from feapder.db.redisdb import RedisDB
			
 
				+from feapder.db.rabbitMq import RabbitMQ, RabbitMQMessage
			
 
				 from feapder.network.item import Item, UpdateItem
			
 
				 from feapder.utils.log import log
			
 
				 
			
 
				-# 执行 eval 时动态变量
			
 
				-try:
			
 
				-    from bson import ObjectId
			
 
				-except ImportError:
			
 
				-    pass
			
 
				+# 执行 eval 需要的变量属性
			
 
				+tools.load_globals(RabbitMQMessage, ObjectId)
			
 
				 
			
 
				 
			
 
				 class HandleFailedItems:
			
 
				-    def __init__(self, redis_key, task_table=None, item_buffer=None):
			
 
				+    def __init__(self, redis_key, rabbitmq=None, item_buffer=None):
			
 
				         if redis_key.endswith(":s_failed_items"):
			
 
				             redis_key = redis_key.replace(":s_failed_items", "")
			
 
				 
			
 
				-        self._redisdb = RedisDB()
			
 
				-        self._item_buffer = item_buffer or ItemBuffer(redis_key, task_table=task_table)
			
 
				+        self._rabbitmq = rabbitmq or RabbitMQ()
			
 
				+        self._item_buffer = item_buffer or ItemBuffer(redis_key)
			
 
				 
			
 
				-        self._table_failed_items = setting.TAB_FAILED_ITEMS.format(redis_key=redis_key)
			
 
				+        # 数据保存失败队列
			
 
				+        self._tab_failed_items = setting.TAB_FAILED_ITEMS.format(redis_key=redis_key)
			
 
				+        self._rabbitmq.declare(queue=self._tab_failed_items)
			
 
				 
			
 
				     def get_failed_items(self, count=1):
			
 
				-        failed_items = self._redisdb.sget(
			
 
				-            self._table_failed_items, count=count, is_pop=False
			
 
				-        )
			
 
				+        failed_items = self._rabbitmq.get(self._tab_failed_items, count)
			
 
				+        failed_items = [eval(message) for message in failed_items]
			
 
				         return failed_items
			
 
				 
			
 
				     def reput_failed_items_to_db(self):
			
@@ -48,8 +47,9 @@ class HandleFailedItems:
 
				                 if not failed_items:
			
 
				                     break
			
 
				 
			
 
				-                for data_str in failed_items:
			
 
				-                    data = eval(data_str)
			
 
				+                for message in failed_items:
			
 
				+                    delivery_tag = message.delivery_tag
			
 
				+                    data = message.body
			
 
				 
			
 
				                     for add in data.get("add"):
			
 
				                         table = add.get("table")
			
@@ -78,7 +78,7 @@ class HandleFailedItems:
 
				 
			
 
				                     # 入库成功后删除
			
 
				                     def delete_item():
			
 
				-                        self._redisdb.srem(self._table_failed_items, data_str)
			
 
				+                        self._rabbitmq.ack(self._tab_failed_items, delivery_tag)
			
 
				 
			
 
				                     self._item_buffer.put_item(delete_item)
			
 
				                     self._item_buffer.flush()
			
@@ -87,7 +87,7 @@ class HandleFailedItems:
 
				                 log.exception(e)
			
 
				 
			
 
				         if total_count:
			
 
				-            log.debug("导入%s条失败item到数库" % total_count)
			
 
				+            log.debug("导入%s条失败item到数据库" % total_count)
			
 
				         else:
			
 
				             log.debug("没有失败的item")
			
 
				 
			
--- a/FworkSpider/feapder/core/handle_failed_requests.py
+++ b/FworkSpider/feapder/core/handle_failed_requests.py
@@ -8,49 +8,56 @@ Created on 2018-08-13 11:43:01
 
				 @email:  boris_liu@foxmail.com
			
 
				 """
			
 
				 import feapder.setting as setting
			
 
				+import feapder.utils.tools as tools
			
 
				 from feapder.buffer.request_buffer import RequestBuffer
			
 
				-from feapder.db.redisdb import RedisDB
			
 
				+from feapder.db.rabbitMq import RabbitMQ, RabbitMQMessage
			
 
				 from feapder.network.request import Request
			
 
				 from feapder.utils.log import log
			
 
				 
			
 
				+# 执行 eval 需要的变量属性
			
 
				+tools.load_globals(RabbitMQMessage)
			
 
				+
			
 
				 
			
 
				 class HandleFailedRequests(object):
			
 
				     """docstring for HandleFailedRequests"""
			
 
				 
			
 
				-    def __init__(self, redis_key):
			
 
				+    def __init__(self, redis_key, rabbitmq=None):
			
 
				         super(HandleFailedRequests, self).__init__()
			
 
				         self._redis_key = redis_key
			
 
				 
			
 
				-        self._redisdb = RedisDB()
			
 
				-        self._request_buffer = RequestBuffer(self._redis_key)
			
 
				+        self._rabbitmq = rabbitmq or RabbitMQ()
			
 
				+        self._request_buffer = RequestBuffer(self._redis_key, rabbitmq)
			
 
				 
			
 
				-        self._table_failed_request = setting.TAB_FAILED_REQUESTS.format(
			
 
				-            redis_key=redis_key
			
 
				-        )
			
 
				+        # 失败任务队列
			
 
				+        self._tab_failed_requests = setting.TAB_FAILED_REQUESTS.format(redis_key=redis_key)
			
 
				+        self._rabbitmq.declare(queue=self._tab_failed_requests)
			
 
				 
			
 
				-    def get_failed_requests(self, count=10000):
			
 
				-        failed_requests = self._redisdb.zget(self._table_failed_request, count=count)
			
 
				-        failed_requests = [eval(failed_request) for failed_request in failed_requests]
			
 
				-        return failed_requests
			
 
				+    def get_failed_messages(self, count=10000):
			
 
				+        failed_messages = self._rabbitmq.get(self._tab_failed_requests, count)
			
 
				+        failed_messages = [eval(message) for message in failed_messages]
			
 
				+        return failed_messages
			
 
				 
			
 
				     def reput_failed_requests_to_requests(self):
			
 
				         log.debug("正在重置失败的requests...")
			
 
				         total_count = 0
			
 
				         while True:
			
 
				             try:
			
 
				-                failed_requests = self.get_failed_requests()
			
 
				-                if not failed_requests:
			
 
				+                failed_messages = self.get_failed_messages()
			
 
				+                if not failed_messages:
			
 
				                     break
			
 
				 
			
 
				-                for request in failed_requests:
			
 
				+                for message in failed_messages:
			
 
				+                    delivery_tag = message.delivery_tag
			
 
				+                    request = message.body
			
 
				                     request["retry_times"] = 0
			
 
				                     request_obj = Request.from_dict(request)
			
 
				                     self._request_buffer.put_request(request_obj)
			
 
				-
			
 
				+                    self._rabbitmq.ack(self._tab_failed_requests, delivery_tag)
			
 
				                     total_count += 1
			
 
				+
			
 
				             except Exception as e:
			
 
				                 log.exception(e)
			
 
				 
			
 
				         self._request_buffer.flush()
			
 
				-
			
 
				+        self._request_buffer.stop()
			
 
				         log.debug("重置%s条失败requests为待抓取requests" % total_count)
			
--- a/FworkSpider/feapder/core/parser_control.py
+++ b/FworkSpider/feapder/core/parser_control.py
@@ -42,9 +42,111 @@ class PaserControl(threading.Thread):
 
				         self._redis_key = redis_key
			
 
				         self._request_buffer = request_buffer
			
 
				         self._item_buffer = item_buffer
			
 
				-
			
 
				         self._thread_stop = False
			
 
				 
			
 
				+    def is_filter(self, item):
			
 
				+        """item入库前是否会被过滤"""
			
 
				+        if setting.ITEM_FILTER_ENABLE:
			
 
				+            if self._item_buffer.__class__.dedup.get(item.fingerprint):
			
 
				+                return True
			
 
				+        return False
			
 
				+
			
 
				+    def sent_heartbeat(self, items, table=None):
			
 
				+        """发送心跳数据"""
			
 
				+        send_success = True
			
 
				+        is_list = isinstance(items, list)
			
 
				+        items = items if is_list else [items]
			
 
				+        log.debug("发送心跳")
			
 
				+        table = table or setting.RECORD_SPIDER_HEARTBEAT
			
 
				+        if not self._item_buffer.export_to_db(table, items):
			
 
				+            send_success = False
			
 
				+            log.error("失败心跳:\n {}".format(tools.dumps_json(items)))
			
 
				+        return send_success
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def get_spider_attribute(name, *args):
			
 
				+        """获取对象属性"""
			
 
				+        obj1, obj2 = args or (None, None)
			
 
				+
			
 
				+        val = None
			
 
				+        if obj1 is not None:
			
 
				+            if isinstance(obj1, dict):
			
 
				+                val = obj1.get(name)
			
 
				+                if not val and name == "spidercode":
			
 
				+                    val = obj1.get("code")
			
 
				+            else:
			
 
				+                val = getattr(obj1, name, None)
			
 
				+
			
 
				+        if not val and obj2 is not None:
			
 
				+            val = getattr(obj2, name, None)
			
 
				+
			
 
				+        return val if val is not None else ""
			
 
				+
			
 
				+    def spider_heartbeat(self, request, response, **kwargs):
			
 
				+        """爬虫心跳"""
			
 
				+        parser = kwargs["parser"]
			
 
				+        now_page = kwargs["now_page"]
			
 
				+        extract_count = kwargs["extract_count"]
			
 
				+        task_count = kwargs["task_count"]
			
 
				+        rel_count = kwargs["rel_count"]
			
 
				+        filepath = kwargs["filepath"]
			
 
				+        status_code = getattr(response, "status_code", -1)
			
 
				+
			
 
				+        item = getattr(request, "item", {})
			
 
				+        site = self.get_spider_attribute("site", item, parser)
			
 
				+        channel = self.get_spider_attribute("channel", item, parser)
			
 
				+        code = self.get_spider_attribute("spidercode", item, parser)
			
 
				+        business_type: str = parser.__business_type__  # 爬虫业务类型
			
 
				+        run_time = tools.get_current_date(date_format="%Y-%m-%d")  # 运行时间,单位:天
			
 
				+        spider_id = tools.get_md5(code + business_type + run_time)
			
 
				+        heartbeat_content = dict(
			
 
				+            node_ip=tools.os.environ.get("CRAWLAB_SERVER_REGISTER_IP"),  # crawlab节点名称
			
 
				+            crawlab_taskid=tools.os.environ.get("CRAWLAB_TASK_ID"),  # crawlab平台爬虫的任务id
			
 
				+            site=site,
			
 
				+            channel=channel,
			
 
				+            spidercode=code,
			
 
				+            url=request.url,  # 访问地址
			
 
				+            status_code=status_code,  # 响应状态码
			
 
				+            runtime=run_time,
			
 
				+            business_type=business_type,
			
 
				+            spider_id=spider_id,
			
 
				+            filepath=filepath,  # 文件路径
			
 
				+            create_at=tools.ensure_int64(tools.get_current_timestamp()),  # 执行时间, 单位:秒
			
 
				+        )
			
 
				+
			
 
				+        if hasattr(request, "error_msg") and status_code != 200:
			
 
				+            error = getattr(request, "error_msg")
			
 
				+            feature = dict(
			
 
				+                err_type=str(error.split(": ")[0]),
			
 
				+                err_msg=getattr(request, "error_msg"),
			
 
				+            )
			
 
				+            feature.setdefault("request_success", False)
			
 
				+            if business_type.endswith("List"):
			
 
				+                feature.update(dict(nowpage=now_page, ))
			
 
				+            else:
			
 
				+                feature.update(dict(count=task_count, ))
			
 
				+        else:
			
 
				+            if business_type.endswith("List"):
			
 
				+                # 列表页
			
 
				+                list_feature = dict(
			
 
				+                    nowpage=now_page,  # 当前页码
			
 
				+                    count=extract_count,  # 列表提取总数
			
 
				+                    rel_count=rel_count,  # 实际入库总数
			
 
				+                )
			
 
				+                feature = list_feature
			
 
				+            else:
			
 
				+                # 详情页
			
 
				+                detail_feature = dict(
			
 
				+                    count=task_count,  # 发起请求的总数
			
 
				+                    rel_count=rel_count,  # 实际入库总数
			
 
				+                )
			
 
				+                feature = detail_feature
			
 
				+            feature.setdefault("request_success", True)
			
 
				+
			
 
				+        feature['expire_at'] = tools.get_utcnow()  # 设置utc时间，定期删除（5天）
			
 
				+        heartbeat_content.update(feature)
			
 
				+        return self.sent_heartbeat(heartbeat_content)
			
 
				+
			
 
				     def run(self):
			
 
				         self._thread_stop = False
			
 
				         while not self._thread_stop:
			
@@ -74,12 +176,8 @@ class PaserControl(threading.Thread):
 
				         request_redis = request["request_redis"]
			
 
				         request = request["request_obj"]
			
 
				 
			
 
				-        del_request_redis_after_item_to_db = False
			
 
				-        del_request_redis_after_request_to_db = False
			
 
				-
			
 
				         is_sent_heartbeat = False  # 发送心跳的条件
			
 
				         heartbeat_lst = []  # 待推送的心跳信息列表
			
 
				-
			
 
				         for parser in self._parsers:
			
 
				             now_page = getattr(request, "page", -1)  # 当前访问页码
			
 
				             extract_count = 0  # 列表抽取总数量
			
@@ -208,7 +306,6 @@ class PaserControl(threading.Thread):
 
				                             else:  # 异步
			
 
				                                 # 将next_request 入库
			
 
				                                 self._request_buffer.put_request(result)
			
 
				-                                del_request_redis_after_request_to_db = True
			
 
				 
			
 
				                         elif isinstance(result, Item):
			
 
				 
			
@@ -233,17 +330,13 @@ class PaserControl(threading.Thread):
 
				 
			
 
				                             # 将item入库(异步)
			
 
				                             self._item_buffer.put_item(result)
			
 
				-                            # 需删除正在做的request
			
 
				-                            del_request_redis_after_item_to_db = True
			
 
				 
			
 
				                         elif callable(result):  # result为可执行的无参函数
			
 
				                             if result_type == 2:  # item 的 callback，buffer里的item均入库后再执行
			
 
				                                 self._item_buffer.put_item(result)
			
 
				-                                del_request_redis_after_item_to_db = True
			
 
				 
			
 
				                             else:  # result_type == 1: # request 的 callback，buffer里的request均入库后再执行。可能有的parser直接返回callback
			
 
				                                 self._request_buffer.put_request(result)
			
 
				-                                del_request_redis_after_request_to_db = True
			
 
				 
			
 
				                         elif result is not None:
			
 
				                             function_name = "{}.{}".format(
			
@@ -382,7 +475,6 @@ class PaserControl(threading.Thread):
 
				                                 elif isinstance(result, Item):
			
 
				                                     self._item_buffer.put_item(result)
			
 
				 
			
 
				-                            del_request_redis_after_request_to_db = True
			
 
				                             is_sent_heartbeat = True
			
 
				                         else:
			
 
				                             # 将 requests 重新入库 爬取
			
@@ -419,7 +511,6 @@ class PaserControl(threading.Thread):
 
				                                 self._request_buffer.put_request(original_request)
			
 
				                             else:
			
 
				                                 self._request_buffer.put_request(request)
			
 
				-                            del_request_redis_after_request_to_db = True
			
 
				 
			
 
				                 else:
			
 
				                     # 记录下载成功的文档
			
@@ -461,17 +552,6 @@ class PaserControl(threading.Thread):
 
				             for heartbeat in heartbeat_lst:
			
 
				                 self.spider_heartbeat(**heartbeat)
			
 
				 
			
 
				-        # 删除正在做的request 跟随item优先
			
 
				-        if request_redis:
			
 
				-            if del_request_redis_after_item_to_db:
			
 
				-                self._item_buffer.put_item(request_redis)
			
 
				-
			
 
				-            elif del_request_redis_after_request_to_db:
			
 
				-                self._request_buffer.put_del_request(request_redis)
			
 
				-
			
 
				-            else:
			
 
				-                self._request_buffer.put_del_request(request_redis)
			
 
				-
			
 
				         if setting.SPIDER_SLEEP_TIME:
			
 
				             if (
			
 
				                 isinstance(setting.SPIDER_SLEEP_TIME, (tuple, list))
			
@@ -499,108 +579,6 @@ class PaserControl(threading.Thread):
 
				     def add_parser(self, parser):
			
 
				         self._parsers.append(parser)
			
 
				 
			
 
				-    def sent_heartbeat(self, items, table=setting.HEARTBEAT_TABLE):
			
 
				-        """发送心跳数据"""
			
 
				-        send_success = True
			
 
				-        is_list = isinstance(items, list)
			
 
				-        items = items if is_list else [items]
			
 
				-        log.debug("发送心跳")
			
 
				-        if not self._item_buffer.export_to_db(table, items):
			
 
				-            send_success = False
			
 
				-            log.error("失败心跳:\n {}".format(tools.dumps_json(items)))
			
 
				-        return send_success
			
 
				-
			
 
				-    @staticmethod
			
 
				-    def get_spider_attribute(name, *args):
			
 
				-        """获取对象属性"""
			
 
				-        obj1, obj2 = args or (None, None)
			
 
				-
			
 
				-        val = None
			
 
				-        if obj1 is not None:
			
 
				-            if isinstance(obj1, dict):
			
 
				-                val = obj1.get(name)
			
 
				-                if not val and name == "spidercode":
			
 
				-                    val = obj1.get("code")
			
 
				-            else:
			
 
				-                val = getattr(obj1, name, None)
			
 
				-
			
 
				-        if not val and obj2 is not None:
			
 
				-            val = getattr(obj2, name, None)
			
 
				-
			
 
				-        return val if val is not None else ""
			
 
				-
			
 
				-    def spider_heartbeat(self, request, response, **kwargs):
			
 
				-        """爬虫心跳"""
			
 
				-        parser = kwargs["parser"]
			
 
				-        now_page = kwargs["now_page"]
			
 
				-        extract_count = kwargs["extract_count"]
			
 
				-        task_count = kwargs["task_count"]
			
 
				-        rel_count = kwargs["rel_count"]
			
 
				-        filepath = kwargs["filepath"]
			
 
				-        status_code = getattr(response, "status_code", -1)
			
 
				-
			
 
				-        item = getattr(request, "item", {})
			
 
				-        site = self.get_spider_attribute("site", item, parser)
			
 
				-        channel = self.get_spider_attribute("channel", item, parser)
			
 
				-        code = self.get_spider_attribute("spidercode", item, parser)
			
 
				-        business_type: str = parser.__business_type__  # 爬虫业务类型
			
 
				-        run_time = tools.get_current_date(date_format="%Y-%m-%d")  # 运行时间,单位:天
			
 
				-        spider_id = tools.get_md5(code + business_type + run_time)
			
 
				-        heartbeat_content = dict(
			
 
				-            node_ip=tools.os.environ.get("CRAWLAB_SERVER_REGISTER_IP"),  # crawlab节点名称
			
 
				-            crawlab_taskid=tools.os.environ.get("CRAWLAB_TASK_ID"),  # crawlab平台爬虫的任务id
			
 
				-            site=site,
			
 
				-            channel=channel,
			
 
				-            spidercode=code,
			
 
				-            url=request.url,  # 访问地址
			
 
				-            status_code=status_code,  # 响应状态码
			
 
				-            runtime=run_time,
			
 
				-            business_type=business_type,
			
 
				-            spider_id=spider_id,
			
 
				-            filepath=filepath,  # 文件路径
			
 
				-            create_at=tools.ensure_int64(tools.get_current_timestamp()),  # 执行时间, 单位:秒
			
 
				-        )
			
 
				-
			
 
				-        if hasattr(request, "error_msg") and status_code != 200:
			
 
				-            error = getattr(request, "error_msg")
			
 
				-            feature = dict(
			
 
				-                err_type=str(error.split(": ")[0]),
			
 
				-                err_msg=getattr(request, "error_msg"),
			
 
				-            )
			
 
				-            feature.setdefault("request_success", False)
			
 
				-            if business_type.endswith("List"):
			
 
				-                feature.update(dict(nowpage=now_page, ))
			
 
				-            else:
			
 
				-                feature.update(dict(count=task_count, ))
			
 
				-        else:
			
 
				-            if business_type.endswith("List"):
			
 
				-                # 列表页
			
 
				-                list_feature = dict(
			
 
				-                    nowpage=now_page,  # 当前页码
			
 
				-                    count=extract_count,  # 列表提取总数
			
 
				-                    rel_count=rel_count,  # 实际入库总数
			
 
				-                )
			
 
				-                feature = list_feature
			
 
				-            else:
			
 
				-                # 详情页
			
 
				-                detail_feature = dict(
			
 
				-                    count=task_count,  # 发起请求的总数
			
 
				-                    rel_count=rel_count,  # 实际入库总数
			
 
				-                )
			
 
				-                feature = detail_feature
			
 
				-            feature.setdefault("request_success", True)
			
 
				-
			
 
				-        feature['expire_at'] = tools.get_utcnow()  # 设置utc时间，定期删除（5天）
			
 
				-        heartbeat_content.update(feature)
			
 
				-        return self.sent_heartbeat(heartbeat_content)
			
 
				-
			
 
				-    def is_filter(self, item):
			
 
				-        """item入库前是否会被过滤"""
			
 
				-        if setting.ITEM_FILTER_ENABLE:
			
 
				-            if self._item_buffer.__class__.dedup.get(item.fingerprint):
			
 
				-                return True
			
 
				-        return False
			
 
				-
			
 
				 
			
 
				 class AirSpiderParserControl(PaserControl):
			
 
				     is_show_tip = False
			
--- a/FworkSpider/feapder/core/scheduler.py
+++ b/FworkSpider/feapder/core/scheduler.py
@@ -12,6 +12,7 @@ import sys
 
				 import threading
			
 
				 import time
			
 
				 from collections import Iterable
			
 
				+from types import SimpleNamespace
			
 
				 
			
 
				 import feapder.setting as setting
			
 
				 import feapder.utils.tools as tools
			
@@ -22,23 +23,11 @@ from feapder.core.collector import Collector
 
				 from feapder.core.handle_failed_items import HandleFailedItems
			
 
				 from feapder.core.handle_failed_requests import HandleFailedRequests
			
 
				 from feapder.core.parser_control import PaserControl
			
 
				-from feapder.db.redisdb import RedisDB
			
 
				+from feapder.db.rabbitMq import RabbitMQ
			
 
				 from feapder.network.item import Item
			
 
				 from feapder.network.request import Request
			
 
				 from feapder.utils import metrics
			
 
				 from feapder.utils.log import log
			
 
				-from feapder.utils.redis_lock import RedisLock
			
 
				-
			
 
				-SPIDER_UUID = tools.get_uuid()
			
 
				-SPIDER_START_TIME = "spider_start_time"
			
 
				-SPIDER_START_TIME_KEY = SPIDER_START_TIME + "#" + SPIDER_UUID
			
 
				-SPIDER_END_TIME_KEY = "spider_end_time"
			
 
				-SPIDER_LAST_TASK_COUNT_RECORD_TIME_KEY = "last_task_count_record_time"
			
 
				-
			
 
				-
			
 
				-class Obj(object):
			
 
				-    def __init__(self, dict_):
			
 
				-        self.__dict__.update(dict_)
			
 
				 
			
 
				 
			
 
				 class Scheduler(threading.Thread):
			
@@ -50,12 +39,8 @@ class Scheduler(threading.Thread):
 
				         thread_count=None,
			
 
				         begin_callback=None,
			
 
				         end_callback=None,
			
 
				-        delete_keys=(),
			
 
				         keep_alive=None,
			
 
				         auto_start_requests=None,
			
 
				-        batch_interval=0,
			
 
				-        wait_lock=True,
			
 
				-        task_table=None,
			
 
				         **kwargs
			
 
				     ):
			
 
				         """
			
@@ -65,12 +50,8 @@ class Scheduler(threading.Thread):
 
				         @param thread_count: 线程数，默认为配置文件中的线程数
			
 
				         @param begin_callback: 爬虫开始回调函数
			
 
				         @param end_callback: 爬虫结束回调函数
			
 
				-        @param delete_keys: 爬虫启动时删除的key，类型: 元组/bool/string。 支持正则
			
 
				         @param keep_alive: 爬虫是否常驻，默认否
			
 
				         @param auto_start_requests: 爬虫是否自动添加任务
			
 
				-        @param batch_interval: 抓取时间间隔 默认为0 天为单位 多次启动时，只有当前时间与第一次抓取结束的时间间隔大于指定的时间间隔时，爬虫才启动
			
 
				-        @param wait_lock: 下发任务时否等待锁，若不等待锁，可能会存在多进程同时在下发一样的任务，因此分布式环境下请将该值设置True
			
 
				-        @param task_table: 任务表， 批次爬虫传递
			
 
				         ---------
			
 
				         @result:
			
 
				         """
			
@@ -82,16 +63,7 @@ class Scheduler(threading.Thread):
 
				                 setattr(setting, "KEEP_ALIVE", not value)
			
 
				             else:
			
 
				                 setattr(setting, key, value)
			
 
				-        
			
 
				-        # 历史爬虫[redis_key]
			
 
				-        for item in sys.argv[1:]:
			
 
				-            if item.startswith("--purpose"):
			
 
				-                val = item.split('=')[-1]
			
 
				-                if not redis_key.endswith(val):
			
 
				-                    # 历史爬虫需要单独的redis_key,防止增量爬虫
			
 
				-                    # 与历史爬虫共用同一个redis_key,出现增量爬虫断点续采的情况
			
 
				-                    redis_key += f'_{val}'
			
 
				-                    
			
 
				+
			
 
				         self._redis_key = redis_key or setting.REDIS_KEY
			
 
				         if not self._redis_key:
			
 
				             raise Exception(
			
@@ -102,10 +74,12 @@ class Scheduler(threading.Thread):
 
				                 """
			
 
				             )
			
 
				 
			
 
				-        self._request_buffer = RequestBuffer(redis_key)
			
 
				-        self._item_buffer = ItemBuffer(redis_key, task_table)
			
 
				+        self._rabbitmq = RabbitMQ()
			
 
				 
			
 
				+        self._request_buffer = RequestBuffer(redis_key)
			
 
				+        self._item_buffer = ItemBuffer(redis_key)
			
 
				         self._collector = Collector(redis_key)
			
 
				+
			
 
				         self._parsers = []
			
 
				         self._parser_controls = []
			
 
				         self._parser_control_obj = PaserControl
			
@@ -114,16 +88,15 @@ class Scheduler(threading.Thread):
 
				         if "auto_stop_when_spider_done" in kwargs:
			
 
				             self._keep_alive = not kwargs.get("auto_stop_when_spider_done")
			
 
				         else:
			
 
				-
			
 
				             self._keep_alive = (
			
 
				                 keep_alive if keep_alive is not None else setting.KEEP_ALIVE
			
 
				             )
			
 
				+
			
 
				         self._auto_start_requests = (
			
 
				             auto_start_requests
			
 
				             if auto_start_requests is not None
			
 
				             else setting.SPIDER_AUTO_START_REQUESTS
			
 
				         )
			
 
				-        self._batch_interval = batch_interval
			
 
				 
			
 
				         self._begin_callback = (
			
 
				             begin_callback
			
@@ -140,34 +113,20 @@ class Scheduler(threading.Thread):
 
				             setting.SPIDER_THREAD_COUNT if not thread_count else thread_count
			
 
				         )
			
 
				 
			
 
				+        self._spider_id = tools.get_uuid(redis_key, tools.get_current_date())
			
 
				         self._spider_name = redis_key
			
 
				-        self._project_name = redis_key.split(":")[0]
			
 
				-        self._task_table = task_table
			
 
				-
			
 
				-        self._tab_spider_time = setting.TAB_SPIDER_TIME.format(redis_key=redis_key)
			
 
				-        self._tab_spider_status = setting.TAB_SPIDER_STATUS.format(redis_key=redis_key)
			
 
				-        self._tab_requests = setting.TAB_REQUESTS.format(redis_key=redis_key)
			
 
				-        self._tab_failed_requests = setting.TAB_FAILED_REQUESTS.format(
			
 
				-            redis_key=redis_key
			
 
				-        )
			
 
				 
			
 
				-        self._is_notify_end = False  # 是否已经通知结束
			
 
				-        self._last_task_count = 0  # 最近一次任务数量
			
 
				-        self._redisdb = RedisDB()
			
 
				+        # 声明爬虫心跳队列
			
 
				+        self._tab_spider_heartbeat = setting.SPIDER_HEARTBEAT
			
 
				+        self._rabbitmq.declare(queue=self._tab_spider_heartbeat)
			
 
				 
			
 
				-        self._project_total_state_table = "{}_total_state".format(self._project_name)
			
 
				-        self._is_exist_project_total_state_table = False
			
 
				+        self._is_notify_end = False  # 是否已经通知结束
			
 
				 
			
 
				         # Request 缓存设置
			
 
				         Request.cached_redis_key = redis_key
			
 
				         Request.cached_expire_time = setting.RESPONSE_CACHED_EXPIRE_TIME
			
 
				 
			
 
				-        delete_keys = delete_keys or setting.DELETE_KEYS
			
 
				-        if delete_keys:
			
 
				-            self.delete_tables(delete_keys)
			
 
				-
			
 
				         self._last_check_task_status_time = 0
			
 
				-        self.wait_lock = wait_lock
			
 
				 
			
 
				         self.init_metrics()
			
 
				 
			
@@ -184,36 +143,32 @@ class Scheduler(threading.Thread):
 
				         else:
			
 
				             raise ValueError("类型错误，爬虫需继承feapder.BaseParser或feapder.BatchParser")
			
 
				 
			
 
				-    def run(self):  # STEP 1 爬虫框架入口
			
 
				-        if not self.is_reach_next_spider_time():  # STEP 2 检测爬虫是否到达执行时间
			
 
				-            return
			
 
				-
			
 
				-        self._start()  # STEP 3 开始运行爬虫
			
 
				+    def run(self):
			
 
				+        self._start()
			
 
				 
			
 
				-        while True:  # step 4 对爬虫状态的一个监控
			
 
				+        while True:
			
 
				+            self.__report_node_heartbeat('running')
			
 
				             try:
			
 
				-                if self.all_thread_is_done(): # Step 5 判断爬虫是否运行完成
			
 
				+                if self.all_thread_is_done():
			
 
				                     if not self._is_notify_end:
			
 
				-                        self.spider_end()  # 跑完一轮
			
 
				+                        self.spider_end()  # 爬虫运行结束
			
 
				                         self._is_notify_end = True
			
 
				 
			
 
				-                    if not self._keep_alive: # step 7 如果不是常驻爬虫 停止所有线程
			
 
				+                    if not self._keep_alive:  # 如果不是常驻爬虫 关闭所有线程
			
 
				                         self._stop_all_thread()
			
 
				                         break
			
 
				 
			
 
				                 else:
			
 
				                     self._is_notify_end = False
			
 
				 
			
 
				-                self.check_task_status()  # step 8 检查任务状态，并进行告警通知
			
 
				-
			
 
				+                self.check_task_status()
			
 
				             except Exception as e:
			
 
				                 log.exception(e)
			
 
				 
			
 
				-            tools.delay_time(1)  # 1秒钟检查一次爬虫状态
			
 
				+            tools.delay_time(1)
			
 
				 
			
 
				     def __add_task(self):
			
 
				-        # 启动parser 的 start_requests
			
 
				-        self.spider_begin()  # 不自动结束的爬虫此处只能执行一遍
			
 
				+        self.spider_begin()  # 启动爬虫 start_requests
			
 
				 
			
 
				         # 判断任务池中属否还有任务，若有接着抓取，若无则生产新任务
			
 
				         todo_task_count = self._collector.get_requests_count()
			
@@ -257,21 +212,21 @@ class Scheduler(threading.Thread):
 
				         if setting.RETRY_FAILED_ITEMS:
			
 
				             handle_failed_items = HandleFailedItems(
			
 
				                 redis_key=self._redis_key,
			
 
				-                task_table=self._task_table,
			
 
				                 item_buffer=self._item_buffer,
			
 
				+                rabbitmq=self._rabbitmq,
			
 
				             )
			
 
				             handle_failed_items.reput_failed_items_to_db()
			
 
				 
			
 
				-        # STEP 3.1 启动request_buffer -- 任务管理器， 负责缓冲添加到数据库中的request
			
 
				+        # STEP 3.1 开启 request_buffer -- 任务管理器，负责缓冲添加到数据库中的request
			
 
				         self._request_buffer.start()
			
 
				-        # STEP 3.2 启动item_buffer -- 管道管理器 责缓冲添加到数据库中的item， 由该manager统一添加。防止多线程同时访问数据库
			
 
				+        # STEP 3.2 开启 item_buffer -- 管道管理器 负责缓冲采集的数据添加到数据库
			
 
				         self._item_buffer.start()
			
 
				-        # STEP 3.3 启动collector  -- 任务管理 ，根据节点和任务，平均分配给每个节点
			
 
				+        # STEP 3.3 开启 collector  -- 任务管理 分发任务
			
 
				         self._collector.start()
			
 
				 
			
 
				         # 启动parser control
			
 
				         for i in range(self._thread_count):
			
 
				-            # STEP 3.4 根据 任务管理器、redis_key，下载器，数据管道创建一个线程池
			
 
				+            # STEP 3.4 创建执行任务线程池
			
 
				             parser_control = self._parser_control_obj(
			
 
				                 self._collector,
			
 
				                 self._redis_key,
			
@@ -279,27 +234,24 @@ class Scheduler(threading.Thread):
 
				                 self._item_buffer,
			
 
				             )
			
 
				 
			
 
				-            for parser in self._parsers:  # step 3.5 把所有任务放入线程池
			
 
				+            for parser in self._parsers:  # step 3.5 把所有待执行任务添加到线程池
			
 
				                 parser_control.add_parser(parser)
			
 
				 
			
 
				-            parser_control.start()  # STEP 3.6 根据线程池开辟一个线程
			
 
				+            parser_control.start()  # STEP 3.6 开启采集线程
			
 
				             self._parser_controls.append(parser_control)
			
 
				 
			
 
				         # STEP 3.7下发任务 有消费线程之后开始读取任务
			
 
				         if setting.RETRY_FAILED_REQUESTS:
			
 
				-            # 重设失败的任务, 不用加锁，原子性操作
			
 
				-            handle_failed_requests = HandleFailedRequests(self._redis_key)
			
 
				+            # 重设失败的任务
			
 
				+            handle_failed_requests = HandleFailedRequests(
			
 
				+                redis_key=self._redis_key,
			
 
				+                rabbitmq=self._rabbitmq
			
 
				+            )
			
 
				             handle_failed_requests.reput_failed_requests_to_requests()
			
 
				 
			
 
				         # STEP 3.8下发新任务 ，生产新任务
			
 
				-        if self._auto_start_requests:  # 自动下发
			
 
				-            if self.wait_lock:
			
 
				-                # Stress 将添加任务处加锁，防止多进程之间添加重复的任务
			
 
				-                with RedisLock(key=self._spider_name) as lock:
			
 
				-                    if lock.locked:
			
 
				-                        self.__add_task()
			
 
				-            else:
			
 
				-                self.__add_task()
			
 
				+        if self._auto_start_requests:
			
 
				+            self.__add_task()
			
 
				 
			
 
				     def all_thread_is_done(self):
			
 
				         # Stress 降低偶然性, 因为各个环节不是并发的，很有可能当时状态为假，但检测下一条时该状态为真。一次检测很有可能遇到这种偶然性
			
@@ -347,19 +299,19 @@ class Scheduler(threading.Thread):
 
				             return
			
 
				 
			
 
				         # 检查失败任务数量 超过1000 报警，
			
 
				-        failed_count = self._redisdb.zget_count(self._tab_failed_requests)
			
 
				-        print('<<<<<<<<<<<<<<<<<<<<<<<<<<<< 失败次数：', failed_count)
			
 
				+        failed_count = self._request_buffer.get_failed_requests_count()
			
 
				+        log.debug(f'《{self._spider_name}》爬虫失败任务数量:{failed_count}')
			
 
				         if failed_count > setting.WARNING_FAILED_COUNT:
			
 
				             # 发送报警
			
 
				             msg = "《%s》爬虫当前失败任务 %s, 请检查爬虫是否正常" % (self._spider_name, failed_count)
			
 
				             log.error(msg)
			
 
				-            self.send_msg(
			
 
				-                msg,
			
 
				+            tools.send_msg(**dict(
			
 
				+                msg=msg,
			
 
				                 level="error",
			
 
				                 message_prefix="《%s》爬虫当前失败任务数报警" % (self._spider_name),
			
 
				-            )
			
 
				+            ))
			
 
				 
			
 
				-        # parser_control实时统计已做任务数及失败任务数，若成功率<0.5 则报警
			
 
				+        # parser_control 实时统计已做任务数及失败任务数，若成功率<0.5 则报警
			
 
				         failed_task_count, success_task_count = PaserControl.get_task_status_count()
			
 
				         total_count = success_task_count + failed_task_count
			
 
				         if total_count > 0:
			
@@ -373,68 +325,11 @@ class Scheduler(threading.Thread):
 
				                     task_success_rate,
			
 
				                 )
			
 
				                 log.error(msg)
			
 
				-                self.send_msg(
			
 
				-                    msg,
			
 
				+                tools.send_msg(**dict(
			
 
				+                    msg=msg,
			
 
				                     level="error",
			
 
				                     message_prefix="《%s》爬虫当前任务成功率报警" % (self._spider_name),
			
 
				-                )
			
 
				-
			
 
				-        # 判断任务数是否变化
			
 
				-        # step 检查redis中任务状态，若连续20分钟内任务数量未发生变化（parser可能卡死），则发出报警信息
			
 
				-        task_count = self._redisdb.zget_count(self._tab_requests)
			
 
				-
			
 
				-        if task_count:
			
 
				-            if task_count != self._last_task_count:
			
 
				-                self._last_task_count = task_count
			
 
				-                self._redisdb.hset(
			
 
				-                    self._tab_spider_time,
			
 
				-                    SPIDER_LAST_TASK_COUNT_RECORD_TIME_KEY,
			
 
				-                    tools.get_current_timestamp(),
			
 
				-                )  # 多进程会重复发消息， 使用redis记录上次统计时间
			
 
				-            else:
			
 
				-                # step 判断时间间隔是否超过20分钟
			
 
				-                lua = """
			
 
				-                    -- local key = KEYS[1]
			
 
				-                    local field = ARGV[1]
			
 
				-                    local current_timestamp = ARGV[2]
			
 
				-
			
 
				-                    -- 取值
			
 
				-                    local last_timestamp = redis.call('hget', KEYS[1], field)
			
 
				-                    if last_timestamp and current_timestamp - last_timestamp >= 1200 then
			
 
				-                        -- 返回任务停滞时间 秒
			
 
				-                        return current_timestamp - last_timestamp 
			
 
				-                    end
			
 
				-
			
 
				-                    if not last_timestamp then
			
 
				-                        redis.call('hset', KEYS[1], field, current_timestamp)
			
 
				-                    end
			
 
				-
			
 
				-                    return 0
			
 
				-
			
 
				-                """
			
 
				-                redis_obj = self._redisdb.get_redis_obj()
			
 
				-                cmd = redis_obj.register_script(lua)
			
 
				-                overtime = cmd(
			
 
				-                    keys=[self._tab_spider_time],
			
 
				-                    args=[
			
 
				-                        SPIDER_LAST_TASK_COUNT_RECORD_TIME_KEY,
			
 
				-                        tools.get_current_timestamp(),
			
 
				-                    ],
			
 
				-                )
			
 
				-
			
 
				-                if overtime:
			
 
				-                    # step 记录日志，并发送报警
			
 
				-                    msg = "{}  爬虫任务停滞 {}，请检查爬虫是否正常".format(
			
 
				-                        self._spider_name, tools.format_seconds(overtime)
			
 
				-                    )
			
 
				-                    log.error(msg) # TODO 这一步可以加一个print，在平台的日志框里输出
			
 
				-                    self.send_msg(
			
 
				-                        msg,
			
 
				-                        level="error",
			
 
				-                        message_prefix="《{}》爬虫任务停滞".format(self._spider_name),
			
 
				-                    )
			
 
				-        else:
			
 
				-            self._last_task_count = 0
			
 
				+                ))
			
 
				 
			
 
				         # 检查入库失败次数
			
 
				         if self._item_buffer.export_falied_times > setting.EXPORT_DATA_MAX_FAILED_TIMES:
			
@@ -442,49 +337,27 @@ class Scheduler(threading.Thread):
 
				                 self._spider_name, self._item_buffer.export_falied_times
			
 
				             )
			
 
				             log.error(msg)
			
 
				-            self.send_msg(
			
 
				-                msg, level="error", message_prefix="《%s》爬虫导出数据失败" % (self._spider_name)
			
 
				-            )
			
 
				-
			
 
				-    def delete_tables(self, delete_tables_list):
			
 
				-        if isinstance(delete_tables_list, bool):
			
 
				-            delete_tables_list = [self._redis_key + "*"]
			
 
				-        elif not isinstance(delete_tables_list, (list, tuple)):
			
 
				-            delete_tables_list = [delete_tables_list]
			
 
				-
			
 
				-        redis = RedisDB()
			
 
				-        for delete_tab in delete_tables_list:
			
 
				-            if not delete_tab.startswith(self._redis_key):
			
 
				-                delete_tab = self._redis_key + delete_tab
			
 
				-            tables = redis.getkeys(delete_tab)
			
 
				-            for table in tables:
			
 
				-                if table != self._tab_spider_time:
			
 
				-                    log.info("正在删除key %s" % table)
			
 
				-                    redis.clear(table)
			
 
				-                else:
			
 
				-                    keys = redis.hgetall(table)
			
 
				-                    for key in keys:
			
 
				-                        if key.startswith(SPIDER_START_TIME):
			
 
				-                            redis.hdel(table, key)
			
 
				+            tools.send_msg(**dict(
			
 
				+                msg=msg,
			
 
				+                level="error",
			
 
				+                message_prefix="《%s》爬虫导出数据失败" % (self._spider_name)
			
 
				+            ))
			
 
				 
			
 
				     def _stop_all_thread(self):
			
 
				+        # 关闭任务管理器
			
 
				         self._request_buffer.stop()
			
 
				+        # 关闭数据管道
			
 
				         self._item_buffer.stop()
			
 
				-        # 停止 collector
			
 
				+        # 关闭任务管理
			
 
				         self._collector.stop()
			
 
				         # 停止 parser_controls
			
 
				         for parser_control in self._parser_controls:
			
 
				             parser_control.stop()
			
 
				 
			
 
				+        # 记录爬虫停止时间
			
 
				+        self.__report_node_heartbeat('close')
			
 
				         self._started.clear()
			
 
				 
			
 
				-    def send_msg(self, msg, level="debug", message_prefix=""):
			
 
				-        #TODO 这个方法是消息预警，但如果每次都发送，会造成消息轰炸，所以采集框架的消息预警没有开启，
			
 
				-        # 后续优化方向，消息预警的内容可以通过接口，接受保存，并对内容紧急度进行分辨，紧急度高的消息，可以直接发送至微信群中，这里尽量不要直接存储，feapder
			
 
				-        # 框架不进行mongo的直接存储，只做查询操作
			
 
				-        # log.debug("发送报警 level:{} msg{}".format(level, msg))
			
 
				-        tools.send_msg(msg=msg, level=level, message_prefix=message_prefix)
			
 
				-
			
 
				     def get_argvs(self):
			
 
				         argvs = {"next_page": False, "max_page": 10}
			
 
				         for item in sys.argv[1:]:
			
@@ -494,7 +367,7 @@ class Scheduler(threading.Thread):
 
				                 val = item.split('=')[-1]
			
 
				                 if key != 'purpose':
			
 
				                     argvs[key] = eval(val)  # 此处使用eval的原因是字符串转bool或int
			
 
				-        return json.loads(json.dumps(argvs), object_hook=Obj)
			
 
				+        return json.loads(json.dumps(argvs), object_hook=lambda d: SimpleNamespace(**d))
			
 
				 
			
 
				     def spider_begin(self):
			
 
				         """
			
@@ -503,7 +376,6 @@ class Scheduler(threading.Thread):
 
				         ---------
			
 
				         @result:
			
 
				         """
			
 
				-
			
 
				         if self._begin_callback:
			
 
				             self._begin_callback()
			
 
				 
			
@@ -513,29 +385,23 @@ class Scheduler(threading.Thread):
 
				             parser.platform_max_page = parameter.max_page
			
 
				             parser.start_callback()
			
 
				 
			
 
				-        # 记录开始时间
			
 
				-        if not self._redisdb.hexists(self._tab_spider_time, SPIDER_START_TIME_KEY):
			
 
				-            current_timestamp = tools.get_current_timestamp()
			
 
				-            self._redisdb.hset(
			
 
				-                self._tab_spider_time, SPIDER_START_TIME_KEY, current_timestamp
			
 
				-            )
			
 
				-
			
 
				-            # 发送消息
			
 
				-            # self.send_msg("《%s》爬虫开始" % self._spider_name)
			
 
				+        # 记录爬虫开始时间
			
 
				+        self.__report_node_heartbeat('start')
			
 
				 
			
 
				-    def spider_end(self):  # step end 爬虫结束时的一些操作
			
 
				-        self.record_end_time()
			
 
				+    def spider_end(self):
			
 
				+        # 爬虫结束时间
			
 
				+        self.__report_node_heartbeat('end')
			
 
				 
			
 
				-        if self._end_callback:  # 系统自带的回调，如果自定义回调，则这个回调不会执行
			
 
				+        if self._end_callback:  # 任务结束回调
			
 
				             self._end_callback()
			
 
				 
			
 
				         for parser in self._parsers:
			
 
				             if not self._keep_alive:
			
 
				                 parser.close()  # 爬虫可自定义close
			
 
				-            parser.end_callback()  # 调用结束回调函数，可在爬虫自定义
			
 
				+            parser.end_callback()  # 调用结束回调函数
			
 
				 
			
 
				         if not self._keep_alive:
			
 
				-            # 关闭webdirver
			
 
				+            # 关闭 webdriver 管理池
			
 
				             if Request.webdriver_pool:
			
 
				                 Request.webdriver_pool.close()
			
 
				 
			
@@ -544,62 +410,23 @@ class Scheduler(threading.Thread):
 
				         else:
			
 
				             metrics.flush()
			
 
				 
			
 
				-        # 计算抓取时长
			
 
				-        data = self._redisdb.hget(
			
 
				-            self._tab_spider_time, SPIDER_START_TIME_KEY, is_pop=True
			
 
				-        )
			
 
				-        if data:
			
 
				-            begin_timestamp = int(data)
			
 
				-            elapsed_time = tools.get_current_timestamp() - begin_timestamp
			
 
				-            msg = "《%s》爬虫结束，耗时 %s" % (
			
 
				-                self._spider_name,
			
 
				-                tools.format_seconds(elapsed_time),
			
 
				-            )
			
 
				-            log.info(msg)
			
 
				-
			
 
				-            # self.send_msg(msg)
			
 
				-
			
 
				         if self._keep_alive:
			
 
				             log.info("爬虫不自动结束，等待下一轮任务...")
			
 
				         else:
			
 
				-            if self._collector.get_spider_count() <= 1:
			
 
				-                self.delete_tables(self._tab_spider_time)
			
 
				-                self.delete_tables(self._tab_spider_status)
			
 
				-            else:
			
 
				-                # 清除关闭爬虫的心跳记录,防止删除任务共享表,造成爬虫异常僵死
			
 
				-                self._collector.delete_spider_node()
			
 
				-
			
 
				-    def record_end_time(self):
			
 
				-        # 记录结束时间
			
 
				-        if self._batch_interval:
			
 
				-            current_timestamp = tools.get_current_timestamp()
			
 
				-            self._redisdb.hset(
			
 
				-                self._tab_spider_time, SPIDER_END_TIME_KEY, current_timestamp
			
 
				-            )
			
 
				+            log.info("《%s》爬虫结束" % (self._spider_name))
			
 
				 
			
 
				-    def is_reach_next_spider_time(self): # 如果没有设置爬虫的启动时间，这一块儿不需要管的
			
 
				-        if not self._batch_interval:
			
 
				-            return True
			
 
				-        # 下面是对上次执行完成的时间和当前时间的一个校验，不在规定范围内则不启动爬虫，阻塞等待时间到达后再运行爬虫
			
 
				-        last_spider_end_time = self._redisdb.hget(
			
 
				-            self._tab_spider_time, SPIDER_END_TIME_KEY
			
 
				-        )
			
 
				-        if last_spider_end_time:
			
 
				-            last_spider_end_time = int(last_spider_end_time)
			
 
				-            current_timestamp = tools.get_current_timestamp()
			
 
				-            time_interval = current_timestamp - last_spider_end_time
			
 
				-
			
 
				-            if time_interval < self._batch_interval * 86400:
			
 
				-                log.info(
			
 
				-                    "上次运行结束时间为 {} 与当前时间间隔 为 {}, 小于规定的抓取时间间隔 {}。爬虫不执行，退出～".format(
			
 
				-                        tools.timestamp_to_date(last_spider_end_time),
			
 
				-                        tools.format_seconds(time_interval),
			
 
				-                        tools.format_seconds(self._batch_interval * 86400),
			
 
				-                    )
			
 
				-                )
			
 
				-                return False
			
 
				-
			
 
				-        return True
			
 
				+    def __report_node_heartbeat(self, status):
			
 
				+        """
			
 
				+        爬虫心跳
			
 
				+        """
			
 
				+        message = {
			
 
				+            'ip': tools.get_localhost_ip(),
			
 
				+            'spider_id': self._spider_id,
			
 
				+            'spider_name': self._spider_name,
			
 
				+            'ts': tools.get_current_timestamp(),
			
 
				+            'status': status
			
 
				+        }
			
 
				+        self._rabbitmq.add(self._tab_spider_heartbeat, message)
			
 
				 
			
 
				     def join(self, timeout=None):
			
 
				         """
			
--- a/FworkSpider/feapder/setting.py
+++ b/FworkSpider/feapder/setting.py
@@ -36,10 +36,20 @@ REDISDB_DB = int(os.getenv("REDISDB_DB", 0))
 
				 # 适用于redis哨兵模式
			
 
				 REDISDB_SERVICE_NAME = os.getenv("REDISDB_SERVICE_NAME")
			
 
				 
			
 
				-# 数据入库的pipeline，可自定义，默认MysqlPipeline
			
 
				+# rabbitMq
			
 
				+RABBITMQ_IP_PORT = os.getenv("RABBITMQ_IP_PORT")
			
 
				+RABBITMQ_USER = os.getenv("RABBITMQ_USER")
			
 
				+RABBITMQ_USER_PASS = os.getenv("RABBITMQ_USER_PASS")
			
 
				+RABBITMQ_VIRTUAL_HOST = os.getenv("RABBITMQ_VIRTUAL_HOST", "/")
			
 
				+RABBITMQ_HEARTBEAT = int(os.getenv("RABBITMQ_HEARTBEAT", 1200))
			
 
				+RABBITMQ_SOCKET_TIMEOUT = int(os.getenv("RABBITMQ_SOCKET_TIMEOUT", 10))
			
 
				+RABBITMQ_EXCHANGE = os.getenv("RABBITMQ_EXCHANGE", "spider")
			
 
				+RABBITMQ_EXCHANGE_TYPE = os.getenv("RABBITMQ_EXCHANGE_TYPE", "direct")
			
 
				+
			
 
				+# 数据入库的pipeline，可自定义，默认MongoPipeline
			
 
				 ITEM_PIPELINES = [
			
 
				-    "feapder.pipelines.mysql_pipeline.MysqlPipeline",
			
 
				-    # "feapder.pipelines.mongo_pipeline.MongoPipeline",
			
 
				+    # "feapder.pipelines.mysql_pipeline.MysqlPipeline",
			
 
				+    "feapder.pipelines.mongo_pipeline.MongoPipeline",
			
 
				 ]
			
 
				 EXPORT_DATA_MAX_FAILED_TIMES = 10  # 导出数据时最大的失败次数，包括保存和更新，超过这个次数报警
			
 
				 EXPORT_DATA_MAX_RETRY_TIMES = 10  # 导出数据时最大的重试次数，包括保存和更新，超过这个次数则放弃重试
			
@@ -50,6 +60,7 @@ COLLECTOR_SLEEP_TIME = 1  # 从任务队列中获取任务到内存队列的间
 
				 COLLECTOR_TASK_COUNT = 10  # 每次获取任务数量
			
 
				 
			
 
				 # SPIDER
			
 
				+SPIDER_HEARTBEAT = os.getenv("SPIDER_HEARTBEAT")  # 爬虫心跳
			
 
				 SPIDER_THREAD_COUNT = 1  # 爬虫并发数
			
 
				 SPIDER_SLEEP_TIME = (
			
 
				     0