定时任务程序

wcc af14934886 添加 补充 es 缺失数据 1 年之前
JyDatas af14934886 添加 补充 es 缺失数据 1 年之前
bidding_listen 16253800c2 补充pici 不存在 的数据 1 年之前
download_file a7b25c68cb ocr附件识别服务更新 1 年之前
escheck af14934886 添加 补充 es 缺失数据 1 年之前
pre_extract 3d42aa9823 更新 预处理 索引结构 1 年之前
website_columns 25cdcaaea9 添加网站导航栏目 定时任务 1 年之前
wuhu_data e2d46872f2 日报程序 1 年之前
.gitignore 82b52e426f no message 2 年之前
README.md fb82e0651d 添加定时任务-切换预处理索引别名 1 年之前

README.md

定时任务程序

JyDatas

  • 剑鱼首页数据
  • 定时每月1号查询一次
  • base_service/included_info

bidding_listen

  • 1.查询bidding昨天全量数据,数据入库 ods_datamonitoring_bidding
  • 2.重复数据 is_repeat = 1
  • 3.定时任务,每天晚上八点执行一次

download_file

  • 1.查询增量bidding非竞品,且无附件数据
  • 2.筛选contenthtml中的a标签href链接
  • 3.对href链接是附件的进行下载、补充,同时生成爬虫维护任务(附件异常)

wuhu_data

  • 1.每天凌晨1点定时同步昨天的芜湖标讯数据到 163 mixdata下的 bidding_wuhu
  • 2.每周六 凌晨同步 所有芜湖的企业数据到 163 mixdataqyxy_wuhu

escheck

  • 1.每天10点统计昨日 MongoDB和es 数据差值
  • 2.每周六发送周报统计
  • 3.es 数据异常 告警邮件发送

website_columns

  • 1.定时给 标讯 bidding 数据以及拟建项目 projectset_proposed 打标签 nav_column
  • 2.具体标签值参考文件夹下面

    涉及到的标签有: 标签名 标签顺序 标签数据表

    招标公告        1           bidding
    招标预告        2           bidding
    招标结果        3           bidding
    招标信用        4           bidding
    采购意向        5           bidding
    项目分包        6           bidding
    企业直采        7           bidding
    政府采购        8           bidding
    拟在建项目       9           projectset_proposed
    审批项目        10          projectset_proposed
    推荐项目        11          projectset_proposed
    业主委托项目     12          暂不处理
    热门项目        13          暂不处理
    新兴项目        14          bidding
    国家级项目      15           bidding
    省级项目        16           bidding
    
    利用二进制,比如 1101 就代表 第一位、第三位和第四位的字段打上了标签,即:招标公告、招标结果、招标信用 三个标签;
    以此类推;最终数据库只会存储一个数字,比如 1101 转换成 10进制数字 13 进行存储。
    

pre_extract

  • 1. 读取 bidding_file bidding_nomal 数据表,然后拿到 分类好的数据段,传递抽取程序去处理。
  • 2. 定时 创建索引结构;可以每天创建一个或者每月创建一个