## 定时任务程序 ### JyDatas + 剑鱼首页数据 + 定时每月1号查询一次 + base_service/included_info ### bidding_listen + 1.查询bidding昨天全量数据,数据入库 ods_datamonitoring_bidding + 2.重复数据 is_repeat = 1 + 3.定时任务,每天晚上八点执行一次 ### download_file + 1.查询增量bidding非竞品,且无附件数据 + 2.筛选contenthtml中的a标签href链接 + 3.对href链接是附件的进行下载、补充,同时生成爬虫维护任务(附件异常) ### wuhu_data * 1.每天凌晨1点定时同步昨天的芜湖标讯数据到 163 `mixdata`下的 `bidding_wuhu` * 2.每周六 凌晨同步 所有芜湖的企业数据到 163 `mixdata` 下 `qyxy_wuhu` ### escheck * 1.每天10点统计昨日 MongoDB和es 数据差值 * 2.每周六发送周报统计 * 3.es 数据异常 告警邮件发送 ### website_columns * 1.定时给 标讯 `bidding` 数据以及拟建项目 `projectset_proposed` 打标签 `nav_column` * 2.具体标签值参考文件夹下面 涉及到的标签有: 标签名 标签顺序 标签数据表 招标公告 1 bidding 招标预告 2 bidding 招标结果 3 bidding 招标信用 4 bidding 采购意向 5 bidding 项目分包 6 bidding 企业直采 7 bidding 政府采购 8 bidding 拟在建项目 9 projectset_proposed 审批项目 10 projectset_proposed 推荐项目 11 projectset_proposed 业主委托项目 12 暂不处理 热门项目 13 暂不处理 新兴项目 14 bidding 国家级项目 15 bidding 省级项目 16 bidding 利用二进制,比如 1101 就代表 第一位、第三位和第四位的字段打上了标签,即:招标公告、招标结果、招标信用 三个标签; 以此类推;最终数据库只会存储一个数字,比如 1101 转换成 10进制数字 13 进行存储。 ### pre_extract ==该程序已作废,不再使用== * 1. 读取 bidding_file bidding_nomal 数据表,然后拿到 分类好的数据段,传递抽取程序去处理。 * 2. 定时 创建索引结构;可以每天创建一个或者每月创建一个