1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677 |
- # -*- coding: utf-8 -*-
- """爬虫配置文件"""
- import os
- import sys
- # MONGODB
- MONGO_IP = "172.17.4.87"
- MONGO_PORT = 27080
- MONGO_DB = "py_spider"
- # REDIS
- # ip:port 多个可写为列表或者逗号隔开 如 ip1:port1,ip2:port2 或 ["ip1:port1", "ip2:port2"]
- REDISDB_IP_PORTS = "172.17.4.232:7361"
- REDISDB_USER_PASS = "k5ZJR5KV4q7DRZ92DQ"
- REDISDB_DB = 2
- # # 适用于redis哨兵模式
- REDISDB_SERVICE_NAME = "quchoong"
- # 数据入库的pipeline,可自定义,默认MongoPipeline
- ITEM_PIPELINES = [
- "feapder.pipelines.mongo_pipeline.MongoPipeline",
- ]
- EXPORT_DATA_MAX_FAILED_TIMES = 5 # 导出数据时最大的失败次数,包括保存和更新,超过这个次数报警
- EXPORT_DATA_MAX_RETRY_TIMES = 5 # 导出数据时最大的重试次数,包括保存和更新,超过这个次数则放弃重试
- REDIS_KEY = "fwork"
- # SPIDER
- SPIDER_MAX_RETRY_TIMES = 5 # 每个请求最大重试次数
- REQUEST_TIMEOUT = 10
- # 浏览器渲染
- WEBDRIVER = dict(
- server_addr="http://172.17.4.232:6666/wd/hub", # selenium 远程服务地址
- version="", # 浏览器版本。不指定版本时,随机分发,版本详见群公告
- pool_size=1, # 浏览器的数量
- load_images=False, # 是否加载图片
- user_agent=None, # 字符串 或 无参函数,返回值为user_agent
- headless=True, # 是否为无头浏览器
- usages_local_driver=True, # 是否使用本地驱动,默认启动本地驱动
- proxy=None, # xxx.xxx.xx.xxx:xxxx 或 无参函数,返回值为代理地址
- driver_type="FIREFOX", # CHROME、FIREFOX
- timeout=30, # 请求超时时间
- executable_path=None, # 浏览器路径,默认为默认路径
- window_size=(1280, 800), # 窗口大小
- render_time=0, # 渲染时长,即打开网页等待指定时间后再获取源码
- custom_argument=["--ignore-certificate-errors"], # 自定义浏览器渲染参数
- service_log_path=os.devnull # 日志路径,默认置空
- )
- ITEM_FILTER_ENABLE = True # item 去重
- ITEM_FILTER_SETTING = dict(
- filter_type=5, # redis去重
- expire_time=2592000, # 过期时间1个月
- redis_url='redis://default:k5ZJR5KV4q7DRZ92DQ@172.17.4.240:8361/0'
- )
- # 设置代理
- PROXY_EXTRACT_API = "http://proxy.spdata.jianyu360.com/proxy/getallip" # 代理提取API ,返回的代理分割符为\r\n
- PROXY_ENABLE = True
- LOG_NAME = os.path.split(sys.argv[0])[-1].split(".")[0]
- LOG_PATH = "logs/%s.log" %(LOG_NAME) # log存储路径
- LOG_LEVEL = "INFO"
- LOG_COLOR = True # 是否带有颜色
- LOG_IS_WRITE_TO_CONSOLE = True # 是否打印到控制台
- LOG_IS_WRITE_TO_FILE = True # 是否写文件
- LOG_MODE = "a" # 写文件的模式
- LOG_MAX_BYTES = 10 * 1024 * 1024 # 每个日志文件的最大字节数
- LOG_BACKUP_COUNT = 2 # 日志文件保留数量
- LOG_ENCODING = "utf8" # 日志文件编码
- OTHERS_LOG_LEVAL = "ERROR" # 第三方库的log等级
- JIANYU_PROXY_URL = 'http://cc.spdata.jianyu360.com/crawl/proxy/socks5/fetch'
- JIANYU_PROXY_AUTHOR = 'Basic amlhbnl1MDAxOjEyM3F3ZSFB'
- JIANYU_SPLASH_URL = "http://splash.spdata.jianyu360.com/render.json"
|