|
@@ -33,20 +33,20 @@ SPIDER_MAX_RETRY_TIMES = 3 # 每个请求最大重试次数
|
|
|
|
|
|
# 浏览器渲染
|
|
# 浏览器渲染
|
|
WEBDRIVER = dict(
|
|
WEBDRIVER = dict(
|
|
- server_addr="http://172.17.4.232:6666/wd/hub", # selenium 远程服务地址
|
|
|
|
pool_size=1, # 浏览器的数量
|
|
pool_size=1, # 浏览器的数量
|
|
- driver_type="CHROME", # CHROME、FIREFOX
|
|
|
|
- headless=False, # 是否为无头浏览器
|
|
|
|
- usages_local_driver=False, # 是否加载本地驱动
|
|
|
|
- version="", # 浏览器版本,使用远程服务时生效
|
|
|
|
load_images=False, # 是否加载图片
|
|
load_images=False, # 是否加载图片
|
|
user_agent=None, # 字符串 或 无参函数,返回值为user_agent
|
|
user_agent=None, # 字符串 或 无参函数,返回值为user_agent
|
|
proxy=None, # xxx.xxx.xx.xxx:xxxx 或 无参函数,返回值为代理地址
|
|
proxy=None, # xxx.xxx.xx.xxx:xxxx 或 无参函数,返回值为代理地址
|
|
|
|
+ headless=False, # 是否为无头浏览器
|
|
|
|
+ driver_type="CHROME", # CHROME、FIREFOX
|
|
timeout=30, # 请求超时时间
|
|
timeout=30, # 请求超时时间
|
|
- executable_path=None, # 浏览器路径,默认为默认路径
|
|
|
|
window_size=(1280, 800), # 窗口大小
|
|
window_size=(1280, 800), # 窗口大小
|
|
|
|
+ executable_path=None, # 浏览器路径,默认为默认路径
|
|
render_time=0, # 渲染时长,即打开网页等待指定时间后再获取源码
|
|
render_time=0, # 渲染时长,即打开网页等待指定时间后再获取源码
|
|
custom_argument=["--ignore-certificate-errors"], # 自定义浏览器渲染参数
|
|
custom_argument=["--ignore-certificate-errors"], # 自定义浏览器渲染参数
|
|
|
|
+ usages_local_driver=False, # 是否加载本地驱动
|
|
|
|
+ server_addr="http://172.17.4.232:6666/wd/hub", # selenium 远程服务地址
|
|
|
|
+ version="", # 远程浏览器版本
|
|
service_log_path=os.devnull # 日志路径
|
|
service_log_path=os.devnull # 日志路径
|
|
)
|
|
)
|
|
# 爬虫启动时,重新入库失败的item
|
|
# 爬虫启动时,重新入库失败的item
|