数据分类

wcc 54ebdbe362 update 3 weken geleden
filterkey 51c54e27a4 first commit 2 jaren geleden
src 54ebdbe362 update 3 weken geleden
.gitignore 51c54e27a4 first commit 2 jaren geleden
README.md 3c87b60acb 更新 说明 1 jaar geleden
classification_1781_20250713 54ebdbe362 update 3 weken geleden

README.md

规则识别web程序

2021/03/10新增改动:新增连接招标库账号密码

​ 1:config.json ​ isbidding:表示本程序连接的基础规则库是否为招标库,是则需要添加连接账号密码 ​ dbinfo:表示密码集。其中“bidding”为招标库账号密码,与任务列表“库类别”的值对应 ​ hangye:行业配置中的dbtype的值与dbinfo中“bidding”对应,表示行业分类为联表查询需要连接招标库,故需要账号密码

特殊处理

  1. 一级分类 是"预告";标题含有 "招标计划",并且含有 "预公告"或者"预公示",分类划分到 "采购意向"
  2. toptype = "招标",subtype ≠ "单一"
  3. "(成交单位|成交人|成交供应商)[::][\s ]*(.{2,25}(公司))"。即 内容含有 "成交单位|成交人|成交供应商" 并且以公司结尾的,同时满足:不含有"投标截止时间","toptype = "结果"
  4. "(中标人单位名称|中标供应商|中标供应商名称|中标人名称|中签单位名称|中签单位|中标商家)[::][\s ]*(.{2,25}(公司|单位|局|厅))";内容含有“中标人单位名称|中标供应商|中标供应商名称|中标人名称|中签单位名称|中签单位|中标商家”,并且以"公司|单位|局|厅"结尾,同时也不含有 "投标截止时间","toptype"="结果"
  5. 以及分类,toptype="招标",并且是通过标题 title 匹配到的,二级分类subyupe ="招标"或者"竞谈",需要 处理配置的detail 规则,匹配到了,subtype="合同",toptype="其它"。

分类顺序

1.招标分类;定时任务,自动更新处理

2.企业认证;招标分类完毕后, udp 传递 stype='qiyerenzheng' 调用。执行完毕后再 udp 传递 stype='mgc',调用 敏感词 分类。

3.敏感词分类:敏感词分类执行完毕后,udp 传递 172.17.4.238:1784,调用 抽取流程


4.行业分类;抽取流程通过udp 传递 stype='hangye' 调用 行业分类。

5.标签分类;行业分类执行完毕,udp 传递 stype='biaoqian' 调用 标签分类

6.业主分类;标签分类执行完 udp 调用 业主分类。业主分类执行完毕 再 udp 远程调用 172.17.4.238:1785数据判重;