定时任务程序

xuzhiheng d66f8199e9 修改、 hai 9 meses
JyDatas af14934886 添加 补充 es 缺失数据 hai 1 ano
bidding_listen cd28586973 1.更新站点栏目,获取热门项目地址变更;2.添加 人脉通,投资映射关系 hai 1 ano
bidding_tags 593321f5ac 剑鱼码优化 hai 10 meses
company_invest 0f3d54ab27 添加 芝麻企业画像 hai 10 meses
data_indicators cebf01ffe7 更新 数据时效分位数统计 hai 1 ano
download_file 9824112499 关闭client hai 1 ano
escheck 7676186ee6 修复竞品站点统计遗漏标800数据 hai 1 ano
pre_extract a96839db72 添加 数据指标 hai 1 ano
project_portrait c5af20660a 增量处理并发数 支持配置 hai 1 ano
recognition 0bd065f3b8 update hai 1 ano
user_subscribe 665d0292a3 更新用户订阅;添加存量更新 hai 1 ano
website_columns 8f3602d48c 添加 bidding 情报标签 hai 1 ano
wuhu_data e2d46872f2 日报程序 hai 1 ano
zhima d66f8199e9 修改、 hai 9 meses
.gitignore 82b52e426f no message %!s(int64=2) %!d(string=hai) anos
README.md 0f3d54ab27 添加 芝麻企业画像 hai 10 meses

README.md

定时任务程序

JyDatas

  • 剑鱼首页数据
  • 定时每月1号查询一次
  • base_service/included_info

bidding_listen

  • 1.查询bidding昨天全量数据,数据入库 ods_datamonitoring_bidding
  • 2.重复数据 is_repeat = 1
  • 3.定时任务,每天晚上八点执行一次

bidding_tags 标讯数据打标签

  • 1.更新字段 tag_topinformation
  • 2.追加 情报_环境采购,情报_印务商机,情报_家具招投标,情报_车辆租赁 四种一级类型,根据 李俊良 那边字段 gov_classify.zc_code

company_invest

定时任务执行增量数据

  • 1.凭安投资关系表:company_partner;每周三零点执行
  • 2.bidding 表:每天处理昨天数据,采购单位、中标单位
  • 3.定时更新映射关系表,a_id,b_id

download_file

  • 1.查询增量bidding非竞品,且无附件数据
  • 2.筛选contenthtml中的a标签href链接
  • 3.对href链接是附件的进行下载、补充,同时生成爬虫维护任务(附件异常)

wuhu_data

  • 1.每天凌晨1点定时同步昨天的芜湖标讯数据到 163 mixdata下的 bidding_wuhu
  • 2.每周六 凌晨同步 所有芜湖的企业数据到 163 mixdataqyxy_wuhu

escheck

  • 1.每天10点统计昨日 MongoDB和es 数据差值
  • 2.每周六发送周报统计
  • 3.es 数据异常 告警邮件发送

website_columns

  • 1.定时给 标讯 bidding 数据以及拟建项目 projectset_proposed 打标签 nav_column
  • 2.具体标签值参考文件夹下面

    涉及到的标签有: 标签名 标签顺序 标签数据表

    招标公告        1           bidding
    招标预告        2           bidding
    招标结果        3           bidding
    招标信用        4           bidding
    采购意向        5           bidding
    项目分包        6           bidding
    企业直采        7           bidding
    政府采购        8           bidding
    拟在建项目       9           projectset_proposed
    审批项目        10          projectset_proposed
    推荐项目        11          projectset_proposed
    业主委托项目     12          暂不处理
    热门项目        13          暂不处理
    新兴项目        14          bidding
    国家级项目      15           bidding
    省级项目        16           bidding
    
    利用二进制,比如 1101 就代表 第一位、第三位和第四位的字段打上了标签,即:招标公告、招标结果、招标信用 三个标签;
    以此类推;最终数据库只会存储一个数字,比如 1101 转换成 10进制数字 13 进行存储。
    

project_portrait

  • 画像数据处理,定时处理增量数据

zhima

  • 芝麻企业画像标签

pre_extract

==该程序已作废,不再使用==

  • 1. 读取 bidding_file bidding_nomal 数据表,然后拿到 分类好的数据段,传递抽取程序去处理。
  • 2. 定时 创建索引结构;可以每天创建一个或者每月创建一个