|
@@ -10,8 +10,8 @@ TAB_ITEMS = "{redis_key}:z_items"
|
|
|
TAB_FAILED_REQUESTS = os.getenv("TAB_FAILED_REQUESTS", "spider:z_failed_requests")
|
|
|
# 数据保存失败表
|
|
|
TAB_FAILED_ITEMS = os.getenv("TAB_FAILED_ITEMS", "spider:s_failed_items")
|
|
|
-# 任务状态记录表
|
|
|
-TASK_CRAWL_STATE = os.getenv("TASK_CRAWL_STATE", "spider:t_crawl_state")
|
|
|
+# 采集任务生产表
|
|
|
+TASK_REQUEST_PRODUCE = os.getenv("TASK_REQUEST_PRODUCE", "spider_listdata")
|
|
|
# 失败任务记录表
|
|
|
TASK_REQUEST_FAILED = os.getenv("TASK_REQUEST_FAILED", "spider_listdata_err")
|
|
|
|
|
@@ -67,6 +67,7 @@ SPIDER_SLEEP_TIME = (
|
|
|
) # 下载时间间隔 单位秒。 支持随机 如 SPIDER_SLEEP_TIME = [2, 5] 则间隔为 2~5秒之间的随机数,包含2和5
|
|
|
SPIDER_TASK_COUNT = 1 # 每个parser从内存队列中获取任务的数量
|
|
|
SPIDER_MAX_RETRY_TIMES = 100 # 每个请求最大重试次数
|
|
|
+SPIDER_FAILED_TASK_MAX_RETRY_TIMES = 100 # 每个请求任务错误采集重试上限
|
|
|
SPIDER_AUTO_START_REQUESTS = (
|
|
|
True
|
|
|
) # 是否主动执行添加 设置为False 需要手动调用start_monitor_task,适用于多进程情况下
|