wcc b6ce5d4e4f 更新 7 сар өмнө
..
config.go d735b6c7fb 添加芝麻企业标签 10 сар өмнө
config.toml b6ce5d4e4f 更新 7 сар өмнө
go.mod b6ce5d4e4f 更新 7 сар өмнө
go.sum b6ce5d4e4f 更新 7 сар өмнө
init.go d735b6c7fb 添加芝麻企业标签 10 сар өмнө
main.go b6ce5d4e4f 更新 7 сар өмнө
name.go b6ce5d4e4f 更新 7 сар өмнө
readme.md b6ce5d4e4f 更新 7 сар өмнө
tag_test.go b6ce5d4e4f 更新 7 сар өмнө
tools.go b6ce5d4e4f 更新 7 сар өмнө
业主打标结果分析.xlsx b6ce5d4e4f 更新 7 сар өмнө
招标项目-汇总(截至0807).xlsx b6ce5d4e4f 更新 7 сар өмнө
招标项目2.xlsx d735b6c7fb 添加芝麻企业标签 10 сар өмнө
无标签数据-大模型优化.xlsx b6ce5d4e4f 更新 7 сар өмнө

readme.md

功能

给数据打标记,使用分类程序规则结构;依据配置文件配置 labels 标记数据,标记结果如下:

    "base_types" : [
        {
            "name" : "发展和改革",
            "weight" : 1.0
        },
        {
            "name" : "党委",
            "weight" : 0.7
        }
    ]

配置文件中,根据字段 field 匹配字段,权重weight 和识别字段一一对应,不同字段,不同权重; 最终需要保存一个带权重的字段,一个不带权重的字段 本次数据只涉及181 凭安的 special_gov_unitspecial_enterprise

增量

针对增量数据,可以根据 `_id` 处理增量数据单独导出数据,再针对增量数据打标记和更新索引