field_py 数据处理流程-python服务处理字段
采购意向 procurementlist、purchasinglist
- rpc serve-name goods_service
评标专家 review_experts
- rpc serve-name extract_expert_service
field_sync 数据处理流程-数据索引之前字段同步及处理
- 抽取字段同步到bidding表
- 剑鱼关键词处理
- isValidFile 附件有效字段
- entidlist 中标单位id字段
processing_ids 数据处理流程-id段保存
- 定时5分钟,保存id段
- 保存id段(dataprocess=0,updatetime)—>
- 招标分类(dataprocess=1,updatetime)—>
- 标的物识别(dataprocess=2,updatetime)—>
- 抽取(dataprocess=3,updatetime)—>
- 字段清理(dataprocess=4,updatetime)—>
- 业主分类(dataprocess=5,updatetime)—>
- 判重(dataprocess=6,updatetime)—>
- bidding表字段同步(dataprocess=7,updatetime)
data_tidb 数据处理流程-数据同步到tidb库(bidding、proejctset)
- bidding数据
- 基本信息
- 扩展信息
- 标的物信息
- 附件信息
- 拟建数据信息
- 采购意向信息
- 采购单位、代理机构唯一标识
- projectset数据
monitor 数据异常监控
- bidding_file数据累计异常监控(累计数据量>10000条)
data_fusion 数据融合-基于判重数据进行的信息融合
- 基于判重数据进行数据的融合
- 模版数据选取规则,基于给定字段打分(1-3)标准进行打分
- 竞品网站数据打分结果为0
- 打分结果一致的情况下,优先选择非重复数据为模板数据
- redis存储规则,key: repeat_id,value:模版id-id1-id2-idx
- 融合记录表,_id是repeat_id
data_clear_sync 数据清洗同步线上
- 数据清洗平台清洗过的数据同步至bidding表、es表、项目表中
data_project 项目合并
data_project_information 项目数据物业字段处理