定时任务程序

wcc 3560d0d9ea 更新 网站 热门栏目数据 1 år sedan
JyDatas af14934886 添加 补充 es 缺失数据 1 år sedan
bidding_listen efc1828d95 更新数据指标程序 1 år sedan
data_indicators 58305e9e23 更新 产权数据统计 1 år sedan
download_file 06c713389e id区间查询逻辑调整 1 år sedan
escheck efc1828d95 更新数据指标程序 1 år sedan
pre_extract a96839db72 添加 数据指标 1 år sedan
recognition 0bd065f3b8 update 1 år sedan
user_subscribe efc1828d95 更新数据指标程序 1 år sedan
website_columns 3560d0d9ea 更新 网站 热门栏目数据 1 år sedan
wuhu_data e2d46872f2 日报程序 1 år sedan
.gitignore 82b52e426f no message 2 år sedan
README.md efc1828d95 更新数据指标程序 1 år sedan

README.md

定时任务程序

JyDatas

  • 剑鱼首页数据
  • 定时每月1号查询一次
  • base_service/included_info

bidding_listen

  • 1.查询bidding昨天全量数据,数据入库 ods_datamonitoring_bidding
  • 2.重复数据 is_repeat = 1
  • 3.定时任务,每天晚上八点执行一次

download_file

  • 1.查询增量bidding非竞品,且无附件数据
  • 2.筛选contenthtml中的a标签href链接
  • 3.对href链接是附件的进行下载、补充,同时生成爬虫维护任务(附件异常)

wuhu_data

  • 1.每天凌晨1点定时同步昨天的芜湖标讯数据到 163 mixdata下的 bidding_wuhu
  • 2.每周六 凌晨同步 所有芜湖的企业数据到 163 mixdataqyxy_wuhu

escheck

  • 1.每天10点统计昨日 MongoDB和es 数据差值
  • 2.每周六发送周报统计
  • 3.es 数据异常 告警邮件发送

website_columns

  • 1.定时给 标讯 bidding 数据以及拟建项目 projectset_proposed 打标签 nav_column
  • 2.具体标签值参考文件夹下面

    涉及到的标签有: 标签名 标签顺序 标签数据表

    招标公告        1           bidding
    招标预告        2           bidding
    招标结果        3           bidding
    招标信用        4           bidding
    采购意向        5           bidding
    项目分包        6           bidding
    企业直采        7           bidding
    政府采购        8           bidding
    拟在建项目       9           projectset_proposed
    审批项目        10          projectset_proposed
    推荐项目        11          projectset_proposed
    业主委托项目     12          暂不处理
    热门项目        13          暂不处理
    新兴项目        14          bidding
    国家级项目      15           bidding
    省级项目        16           bidding
    
    利用二进制,比如 1101 就代表 第一位、第三位和第四位的字段打上了标签,即:招标公告、招标结果、招标信用 三个标签;
    以此类推;最终数据库只会存储一个数字,比如 1101 转换成 10进制数字 13 进行存储。
    

pre_extract

==该程序已作废,不再使用==

  • 1. 读取 bidding_file bidding_nomal 数据表,然后拿到 分类好的数据段,传递抽取程序去处理。
  • 2. 定时 创建索引结构;可以每天创建一个或者每月创建一个