Bladeren bron

update:更新配置和注释

dongzhaorui 2 jaren geleden
bovenliggende
commit
737ef04e6a
2 gewijzigde bestanden met toevoegingen van 8 en 6 verwijderingen
  1. 2 0
      FworkSpider/feapder/core/collector.py
  2. 6 6
      FworkSpider/setting.py

+ 2 - 0
FworkSpider/feapder/core/collector.py

@@ -121,6 +121,8 @@ class Collector(threading.Thread):
             count=request_count,
         )
 
+        # 当任务Queue存在任务且其它节点再次启动爬虫,但爬虫无任务可执行
+        # 原因是爬虫调用间隔时间小于 REQUEST_LOST_TIMEOUT
         log.debug("领取新任务完毕,共{}条".format(len(requests_list)))
 
         if requests_list:

+ 6 - 6
FworkSpider/setting.py

@@ -33,20 +33,20 @@ SPIDER_MAX_RETRY_TIMES = 3  # 每个请求最大重试次数
 
 # 浏览器渲染
 WEBDRIVER = dict(
-    server_addr="http://172.17.4.232:6666/wd/hub",  # selenium 远程服务地址
     pool_size=1,  # 浏览器的数量
-    driver_type="CHROME",  # CHROME、FIREFOX
-    headless=False,  # 是否为无头浏览器
-    usages_local_driver=False,  # 是否加载本地驱动
-    version="",  # 浏览器版本,使用远程服务时生效
     load_images=False,  # 是否加载图片
     user_agent=None,  # 字符串 或 无参函数,返回值为user_agent
     proxy=None,  # xxx.xxx.xx.xxx:xxxx 或 无参函数,返回值为代理地址
+    headless=False,  # 是否为无头浏览器
+    driver_type="CHROME",  # CHROME、FIREFOX
     timeout=30,  # 请求超时时间
-    executable_path=None,  # 浏览器路径,默认为默认路径
     window_size=(1280, 800),  # 窗口大小
+    executable_path=None,  # 浏览器路径,默认为默认路径
     render_time=0,  # 渲染时长,即打开网页等待指定时间后再获取源码
     custom_argument=["--ignore-certificate-errors"],  # 自定义浏览器渲染参数
+    usages_local_driver=False,  # 是否加载本地驱动
+    server_addr="http://172.17.4.232:6666/wd/hub",  # selenium 远程服务地址
+    version="",  # 远程浏览器版本
     service_log_path=os.devnull  # 日志路径
 )
 # 爬虫启动时,重新入库失败的item