update.md 1.2 KB

1、快照页:已完成

附件采集方法        

2、关联lua爬虫接口:已完成

待开发爬虫任务管理  #

3、报警修改 爬虫报警规则:已完成

1、失败一定次数  
2、爬虫当前任务成功率过低
3、爬虫导出数据失败一定次数
4、爬虫任务停滞
5、爬虫异常停止


4、爬虫校验,同时只运行一个 *无需修改

爬虫为分布式爬虫,后续新建任务不会重新运行,
会读取当前爬虫中未完成的任务,协同执行  
/// 若两个爬虫同一时间开始执行,这时无法处理 

5、重新采集的一个字段 :已完成

关于正文/其他数据采集为空,这里进行了处理,停止当前管道线程,把其当做错误请求处理,
五次容错机会,五次均失败后丢弃当前连接,等待下一轮爬虫执行时重试

6、快速定位,项目爬虫代码、指定人员 :可指定人员、获取爬虫名称,但无法直接跳转到爬虫文件

    可分层级,每个角色-单独一个爬虫,按地区分文件 以便快速查找爬虫文件

7、管理平台消息自定义 无需改动

# 两个消息发送方式:爬虫结束时发送,爬虫异常结束时报错