附件采集方法
待开发爬虫任务管理 #
1、失败一定次数
2、爬虫当前任务成功率过低
3、爬虫导出数据失败一定次数
4、爬虫任务停滞
5、爬虫异常停止
爬虫为分布式爬虫,后续新建任务不会重新运行,
会读取当前爬虫中未完成的任务,协同执行
/// 若两个爬虫同一时间开始执行,这时无法处理
关于正文/其他数据采集为空,这里进行了处理,停止当前管道线程,把其当做错误请求处理,
五次容错机会,五次均失败后丢弃当前连接,等待下一轮爬虫执行时重试
可分层级,每个角色-单独一个爬虫,按地区分文件 以便快速查找爬虫文件
# 两个消息发送方式:爬虫结束时发送,爬虫异常结束时报错