This website works better with JavaScript
홈
탐색
도움말
로그인
data_processing
/
data_field_dispose
Watch
2
Star
0
포크
0
파일
이슈
0
풀 리퀘스트
0
위키
数据处理流程中需要python识别的字段值处理
32
커밋
4
브랜치
0
릴리즈
트리:
1ac95b638c
브랜치
태그
dev1.1
dev1.1.1
dev1.2
master
data_field_disp...
HTTPS
SSH
ZIP
TAR.GZ
zhengkun
1ac95b638c
标讯...异常结构字段...存储修改
1 년 전
data_clear_sync
034b259431
cm
2 년 전
data_fusion
b8f18540fb
xg
2 년 전
data_mgo_to_tidb
1ac95b638c
标讯...异常结构字段...存储修改
1 년 전
data_monitor
e4bac1ca9d
数仓
1 년 전
data_project
9f3f948013
xg
1 년 전
data_tidb
9f3f948013
xg
1 년 전
field_py
9f3f948013
xg
1 년 전
field_sync
9f3f948013
xg
1 년 전
monitor
e4bac1ca9d
数仓
1 년 전
processing_ids
034b259431
cm
2 년 전
.gitignore
034b259431
cm
2 년 전
README.md
034b259431
cm
2 년 전
README.md
field_py 数据处理流程-python服务处理字段
采购意向 procurementlist、purchasinglist
rpc serve-name goods_service
评标专家 review_experts
rpc serve-name extract_expert_service
field_sync 数据处理流程-数据索引之前字段同步及处理
抽取字段同步到bidding表
剑鱼关键词处理
isValidFile 附件有效字段
entidlist 中标单位id字段
processing_ids 数据处理流程-id段保存
定时5分钟,保存id段
保存id段(dataprocess=0,updatetime)—>
招标分类(dataprocess=1,updatetime)—>
标的物识别(dataprocess=2,updatetime)—>
抽取(dataprocess=3,updatetime)—>
字段清理(dataprocess=4,updatetime)—>
业主分类(dataprocess=5,updatetime)—>
判重(dataprocess=6,updatetime)—>
bidding表字段同步(dataprocess=7,updatetime)
data_tidb 数据处理流程-数据同步到tidb库(bidding、proejctset)
bidding数据
基本信息
扩展信息
标的物信息
附件信息
拟建数据信息
采购意向信息
采购单位、代理机构唯一标识
projectset数据
基础信息
monitor 数据异常监控
bidding_file数据累计异常监控(累计数据量>10000条)
data_fusion 数据融合-基于判重数据进行的信息融合
基于判重数据进行数据的融合
模版数据选取规则,基于给定字段打分(1-3)标准进行打分
竞品网站数据打分结果为0
打分结果一致的情况下,优先选择非重复数据为模板数据
redis存储规则,key: repeat_id,value:模版id-id1-id2-idx
融合记录表,_id是repeat_id
data_clear_sync 数据清洗同步线上
数据清洗平台清洗过的数据同步至bidding表、es表、项目表中
data_project 项目合并
依赖bidding数据进行项目合并