数据处理流程中需要python识别的字段值处理

xuzhiheng 3eb1e53b81 同步优化 9 months ago
data_clear_sync 1bd38c091b no message 1 year ago
data_fusion b8f18540fb xg 2 years ago
data_mgo_to_tidb 3ae73db7be 删除大文件 1 year ago
data_mgo_to_tidb_project ad56ebf107 tj 1 year ago
data_monitor e4bac1ca9d 数仓 1 year ago
data_project f1a7c752ec no message 1 year ago
data_tidb 1bd38c091b no message 1 year ago
field_py 1bd38c091b no message 1 year ago
field_sync 3eb1e53b81 同步优化 9 months ago
monitor 1bd38c091b no message 1 year ago
processing_ids b8d99db168 no message 1 year ago
.gitignore 034b259431 cm 2 years ago
README.md b8d99db168 no message 1 year ago

README.md

field_py 数据处理流程-python服务处理字段

采购意向 procurementlist、purchasinglist

  • rpc serve-name goods_service

评标专家 review_experts

  • rpc serve-name extract_expert_service

field_sync 数据处理流程-数据索引之前字段同步及处理

  • 抽取字段同步到bidding表
  • 剑鱼关键词处理
  • isValidFile 附件有效字段
  • entidlist 中标单位id字段

processing_ids 数据处理流程-id段保存

  • 定时5分钟,保存id段
    • 保存id段(dataprocess=0,updatetime)—>
    • 招标分类(dataprocess=1,updatetime)—>
    • 标的物识别(dataprocess=2,updatetime)—>
    • 抽取(dataprocess=3,updatetime)—>
    • 字段清理(dataprocess=4,updatetime)—>
    • 业主分类(dataprocess=5,updatetime)—>
    • 判重(dataprocess=6,updatetime)—>
    • bidding表字段同步(dataprocess=7,updatetime)

data_tidb 数据处理流程-数据同步到tidb库(bidding、proejctset)

  • bidding数据
    • 基本信息
    • 扩展信息
    • 标的物信息
    • 附件信息
    • 拟建数据信息
    • 采购意向信息
    • 采购单位、代理机构唯一标识
  • projectset数据
    • 基础信息
    • 企业通讯录与标讯关联标数据处理

monitor 数据异常监控

  • bidding_file数据累计异常监控(累计数据量>10000条)

data_fusion 数据融合-基于判重数据进行的信息融合

  • 基于判重数据进行数据的融合
    • 模版数据选取规则,基于给定字段打分(1-3)标准进行打分
    • 竞品网站数据打分结果为0
    • 打分结果一致的情况下,优先选择非重复数据为模板数据
    • redis存储规则,key: repeat_id,value:模版id-id1-id2-idx
    • 融合记录表,_id是repeat_id

data_clear_sync 数据清洗同步线上

  • 数据清洗平台清洗过的数据同步至bidding表、es表、项目表中

data_project 项目合并

  • 依赖bidding数据进行项目合并