utils.go 27 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732
  1. package main
  2. import (
  3. "encoding/json"
  4. "fmt"
  5. "github.com/cespare/xxhash/v2"
  6. "go.mongodb.org/mongo-driver/bson"
  7. "go.uber.org/zap"
  8. "jygit.jydev.jianyu360.cn/data_processing/common_utils"
  9. "jygit.jydev.jianyu360.cn/data_processing/common_utils/log"
  10. "jygit.jydev.jianyu360.cn/data_processing/common_utils/mongodb"
  11. "jygit.jydev.jianyu360.cn/data_processing/common_utils/udp"
  12. "math"
  13. "net"
  14. "os"
  15. "regexp"
  16. "sort"
  17. "strings"
  18. "time"
  19. "unicode"
  20. "unicode/utf8"
  21. )
  22. // convertToMongoID convertToMongoID
  23. func convertToMongoID(query map[string]interface{}) map[string]interface{} {
  24. result := make(map[string]interface{})
  25. if query == nil {
  26. return result
  27. }
  28. idMap := query["_id"].(map[string]interface{})
  29. if idMap != nil {
  30. tmpQ := map[string]interface{}{}
  31. for c, id := range idMap {
  32. if idStr, ok := id.(string); ok && id != "" {
  33. tmpQ[c] = mongodb.StringTOBsonId(idStr)
  34. }
  35. }
  36. result["_id"] = tmpQ
  37. }
  38. return result
  39. }
  40. // StringSliceValuesEqual 判断切片相等
  41. func StringSliceValuesEqual(a, b []string) bool {
  42. if len(a) != len(b) {
  43. return false
  44. }
  45. sort.Strings(a)
  46. sort.Strings(b)
  47. for i := range a {
  48. if a[i] != b[i] {
  49. return false
  50. }
  51. }
  52. return true
  53. }
  54. // Float64SliceSum float64 数据求和
  55. func Float64SliceSum(nums []float64) float64 {
  56. sum := 0.0
  57. for _, num := range nums {
  58. sum += num
  59. }
  60. return sum
  61. }
  62. func Float64Equal1Precision(a, b float64) bool {
  63. return int(math.Round(a*10)) == int(math.Round(b*10))
  64. }
  65. // chargeType 判断mongo 字段类型和 es 字段类型相匹配
  66. func chargeType(ftype, etype string) bool {
  67. if ftype != "" {
  68. switch ftype {
  69. case "string":
  70. if etype == "keyword" || etype == "text" {
  71. return true
  72. } else {
  73. return false
  74. }
  75. case "bool":
  76. if etype == "boolean" {
  77. return true
  78. } else {
  79. return false
  80. }
  81. case "int64", "int32", "int":
  82. if etype == "long" || etype == "integer" {
  83. return true
  84. } else {
  85. return false
  86. }
  87. case "float64", "float32":
  88. if etype == "double" || etype == "float" {
  89. return true
  90. } else {
  91. return false
  92. }
  93. }
  94. }
  95. return false
  96. }
  97. // IsHanStart 判断字符串是否以汉字开头或者以字母开头
  98. func IsHanStart(s string) bool {
  99. if s == "" {
  100. return false
  101. }
  102. return unicode.Is(unicode.Scripts["Han"], []rune(s)[0]) || unicode.IsLetter([]rune(s)[0])
  103. }
  104. // 判断字符是否为汉字
  105. func IsHan(c rune) bool {
  106. return unicode.Is(unicode.Scripts["Han"], c)
  107. }
  108. // 判断公司名称是否以圆括号开头且括号内汉字开头
  109. func IsBracketStartWithHan(s string) bool {
  110. if len(s) == 0 || s[0] != '(' {
  111. return false
  112. }
  113. // 索引 i 和 j 分别是左右圆括号的位置,如果找不到右圆括号则返回 false
  114. i, j := 0, 0
  115. for j = i + 1; j < len(s); j++ {
  116. if s[j] == ')' {
  117. break
  118. }
  119. }
  120. if j >= len(s) {
  121. return false
  122. }
  123. // 检查圆括号内是否以汉字或字母开头
  124. bracketContent := s[i+1 : j]
  125. if len(bracketContent) == 0 || (!unicode.IsLetter(rune(bracketContent[0])) && !IsHan([]rune(bracketContent)[0])) {
  126. return false
  127. }
  128. return true
  129. }
  130. // IsCompanyName 判断字符串是否以汉字开头、以括号开头并且括号里面是汉字、以"公司"结尾,其中一个条件符合即返回true,否则返回false
  131. func IsCompanyName(s string) bool {
  132. r := []rune(s)
  133. //if len(r) >= 6 && (string(r[len(r)-6:]) == "有限公司" || string(r[len(r)-6:]) == "股份有限公司") {
  134. // return (IsHanStart(s) || IsBracketStartWithHan(s))
  135. //} else if len(r) >= 2 && string(r[len(r)-2:]) == "公司" {
  136. // return (IsHanStart(s) || IsBracketStartWithHan(s))
  137. //}
  138. if len(r) > 2 {
  139. return (IsHanStart(s) || IsBracketStartWithHan(s))
  140. }
  141. return false
  142. }
  143. // GetChineseCharacters 提取字符串中的汉字
  144. func GetChineseCharacters(s string) string {
  145. re := regexp.MustCompile(`[\p{Han}]+`)
  146. return re.FindString(s)
  147. }
  148. func getCompanyName(name string) string {
  149. if IsCompanyName(name) {
  150. return name
  151. }
  152. return GetChineseCharacters(name)
  153. }
  154. func IsUnicodeStart(s string) bool {
  155. if len(s) == 0 {
  156. return false
  157. }
  158. _, size := utf8.DecodeRuneInString(s)
  159. return size > 0
  160. }
  161. // RemoveDuplicateSuffix 去除字符串末尾的重复字词
  162. func RemoveDuplicateSuffix(str string, suffix string) string {
  163. // 构建正则表达式:^(.*?)(重复的结尾词)+$
  164. re := regexp.MustCompile(fmt.Sprintf(`^(.*?)(%s)+$`, suffix))
  165. matches := re.FindStringSubmatch(str)
  166. if len(matches) == 3 {
  167. return matches[1] + matches[2]
  168. }
  169. return str
  170. }
  171. func findName(name string) []map[string]interface{} {
  172. filter := bson.M{"name": name, "status": 1}
  173. info, _ := MgoB.Find("wcc_buyer", filter, nil, nil, false, -1, -1)
  174. return *info
  175. }
  176. func findNameID(id string) []map[string]interface{} {
  177. filter := bson.M{"name_id": id, "status": 1}
  178. info, _ := MgoB.Find("wcc_buyer", filter, nil, nil, false, -1, -1)
  179. return *info
  180. }
  181. // isStringRepeating 判断字符串内字符完全重复,例如:山东大学山东大学
  182. func isStringRepeating(str string) bool {
  183. for i := 0; i < len(str); i++ {
  184. for j := i + 1; j < len(str); j++ {
  185. if str[i] != str[j] {
  186. return false
  187. }
  188. }
  189. }
  190. return true
  191. }
  192. // IsInStringArray 判断数组中是否存在字符串
  193. func IsInStringArray(str string, arr []string) bool {
  194. // 先对字符串数组进行排序
  195. sort.Strings(arr)
  196. // 使用二分查找算法查找字符串
  197. pos := sort.SearchStrings(arr, str)
  198. // 如果找到了则返回 true,否则返回 false
  199. return pos < len(arr) && arr[pos] == str
  200. }
  201. // checkName 检查名称,不符合的返回false
  202. func checkName(name string) (res bool) {
  203. res = true
  204. faleNames := []string{"管理有限公司", "有限公司", "技术公司", "制水公司", "工程有限公司", "耐材公司", "检测公司", "某公司", "现对公司", "集装箱码头分公司", "质检分公司", "司公司", "供电分公司", "建设公司", "水城分公司", "工信公司", "棉纺公司", "安装公司", "管公司", "测试公司", "四公司", "电力分公司",
  205. "原平分公司", "兰州分公司", "基础设施公司", "陆丰分公司", "郴州分公司", "大渡口分公司", "汽车四分公司", "州大学", "开有限公司", "中小学幼儿园", "上级公司下级公司", "楼及幼儿园", "冷询有限公司", "市第一医院", "发展有阶公司", "楼及号地幼儿园", "第一幼儿园", "楼急救中心", "住宅楼及局", "号国际钻井公司", "管理委员会",
  206. "区地块幼儿园", "省人民政府", "具有国家铁路局", "住宅楼及幼儿园", "丿再生资源技术有限公司", "为保证医院", "网及灾备中心", "地块幼儿园", "求石油昆仑燃气限公司", "栋楼及幼儿园", "号固井压裂公司", "号吐哈钻井公司", "股为限公司", "住宅楼及社区服务中心", "井与分公司", "场监督管局", "为了保证本次政府",
  207. "人民政府东环街遂办事处", "龙湖区分公司", "澄海侨史馆", "中国移动科", "中国移动学院", "中国移动分公司"}
  208. for _, v := range faleNames {
  209. if name == v {
  210. res = false
  211. break
  212. }
  213. }
  214. if len([]rune(name)) < 6 {
  215. if strings.HasSuffix(name, "公司") {
  216. res = false
  217. } else if strings.HasSuffix(name, "办事处") {
  218. res = false
  219. } else if strings.HasSuffix(name, "分公司") {
  220. res = false
  221. } else if strings.HasSuffix(name, "管委会") {
  222. res = false
  223. } else if strings.HasSuffix(name, "支行") {
  224. res = false
  225. } else if strings.HasSuffix(name, "网络部") {
  226. res = false
  227. } else if strings.HasSuffix(name, "部队") {
  228. res = false
  229. } else if strings.HasSuffix(name, "医科大学") {
  230. res = false
  231. }
  232. }
  233. if len([]rune(name)) < 7 && strings.HasSuffix(name, "中医药大学") {
  234. res = false
  235. }
  236. if !TDName(name) {
  237. res = false
  238. }
  239. return
  240. }
  241. // TDName 根据开头、结尾、排除词,筛选名称,筛选不符合的数据
  242. func TDName(name string) (res bool) {
  243. res = true
  244. if isStringRepeating(name) { //重复数据,山东大学山东大学
  245. res = false
  246. log.Info("TDName", zap.String("isStringRepeating", name))
  247. return res
  248. }
  249. countWords := []string{"教育局", "学校", "大学", "中学", "审计局", "郑州局", "中医院", "部队", "有限公司"}
  250. //教育局出现二次
  251. for _, c := range countWords {
  252. if strings.Count(name, c) > 1 {
  253. res = false
  254. log.Info("TDName", zap.String("countWords", c), zap.String("name", name))
  255. return res
  256. }
  257. }
  258. //公司出现三次,错误
  259. if strings.Count(name, "公司") > 2 {
  260. res = false
  261. log.Info("TDName", zap.String("公司", "公司出现三次"))
  262. return res
  263. }
  264. //公司出现 二次,但是不是分公司
  265. if strings.Count(name, "公司") > 1 {
  266. if !strings.Contains(name, "分公司") && !strings.Contains(name, "子公司") && !strings.Contains(name, "市公司") {
  267. res = false
  268. log.Info("TDName", zap.String("公司", "公司出现二次,但没有分公司, 子公司"))
  269. return res
  270. }
  271. }
  272. //开头的单词
  273. preWords := []string{"取消", "转发", "省", "会议室", "某", "某单位", "某公司", "某学校", "测试", "某大学", "某医院", "拟建", "机械", "县", "市", "区", "巡察", "人民", "对", "楼", "家长", "春季", "于", "度", "初级中学", "州", "总部", "一号", "含", "育场", "选择", "第包", "医院",
  274. "共赢资产", "从", "实验中学", "公共", "乘用车", "部与", "一直", "一体化", "现对", "现为", "之", "份", "半坡", "下属", "程", "信息", "带", "工务", "技术", "于", "号", "辖属", "造", "计财", "实验", "原", "器械", "是", "师", "雨山区", "云城区", "阜涣", "公联", "批",
  275. "总承包", "姓市", "秋季学期", "哈巴河", "保险", "开发区", "尘设资", "团", "物业", "农村", "部", "东省", "于", "章", "董", "分局", "再", "微", "明", "建", "公司", "审计", "满足", "中学", "届", "大学", "按摩", "中心", "附属", "总", "教育局", "中学", "小学", "学院",
  276. "中医院", "人医院", "学校", "输", "十六", "有限", "节能", "二公司", "分公司", "子公司", "公司", "审计", "河河", "地公司", "六公司", "三公司", "十六公司", "节能",
  277. "股份", "运输公司", "堇", "家纺", "港区"}
  278. // 开头
  279. for _, word := range preWords {
  280. if strings.HasPrefix(name, word) {
  281. res = false
  282. log.Info("TDName", zap.String("preWords", word), zap.String("name", name))
  283. return res
  284. }
  285. }
  286. //结尾单词
  287. sufWords := []string{"市", "某单位", "某公司", "某学校", "测试", "某大学", "某医院", "地产鲨", "项目组", "研究", "公国司", "物资", "评估与医院", "年室", "招标", "设有", "复限公司", "服务", "有限责任", "罩套", "有阴公", "人队", "报告", "厕所", "污水处", "检查", "镇中心",
  288. "显微镜", "段", "现场局", "租赁", "镇", "市中心", "勐阿糖厂", "展厅", "等医院", "广场室", "水利顷", "市室", "交界处", "自助银行", "若源局", "布局", "联合体", "气室", "活动场", "包装公司", "投资", "有限", "等", "设备", "急件", "有限公司有限公司", "公司公司", "分公司分公司",
  289. "大学大学", "学院学院", "大学场", "学校室", "部队部队", "内部", "部分支公司"}
  290. //结尾
  291. for _, word := range sufWords {
  292. if strings.HasSuffix(name, word) {
  293. res = false
  294. log.Info("TDName", zap.String("sufWords", word), zap.String("name", name))
  295. return res
  296. }
  297. }
  298. //包含的单词
  299. falseWords := []string{"丿", "艹", "[ ", "【", "?", "亻", "#", "~", "^", "亻", "*", "$", "、", "/", "*", "<>", "[ ", "【", "?", "某", "病历系统", "不予", "薯公", "标段", "电压互感器", "我",
  300. "省道", "询比", "学校和幼儿园", "住宅", "询价", "办公区", "项目", "中旎髓细兴", "办么", "测试", "项目部", "飞地园", "购", "鉴定", "实验室", "车务段", "可测性设计", "手术室", "第二期", "退", "催促",
  301. "协议中", "影响", "工作", "动力厂", "干扰源", "指定", "达到", "控制器", "竞价", "人哥", "络络络", "路段", "示范区", "一般用", "采供", "修缮", "招标单位", "联系方式", "沟通", "配线架", "及配建",
  302. "任务", "分包", "其他", "行为", "中标人", "教室", "安置", "暂行", "建设单位", "选聘", "合同", "转发", "勿救", "既有", "装置", "任务", "开展", "依据", "指定", "试剂", "景观", "包件", "法人", "合格",
  303. "短管", "投标文件", "核实", "测汞仪", "黑名单", "制作类", "汇编", "收购", "拿", "丿", "艹", "关于", "要求", "举办", "显示所", "右阴公司", "发射", "加装", "复印纸", "终止", "生产处", "提供", "新建",
  304. "该项目", "安装", "造价", "改造", "样品", "课室", "水毁道路", "闲置资产", "#", "南校园", "扩建", "道路维修", "等所", "维稳中心", "异议", "音乐厅", "慰问", "介入", "改建", "即", "建设", "某单位",
  305. "医院医院", "中国电建中国电建", "建设建设", "建设规模", "满足", "郑州郑州", "学校学校", "&", ";", ";", "就医院", "酒医院", "至医院", "对", "所需", "提升", "提高", "学期", "学年", "规模", "必须",
  306. "建成", "各公司", "公司与公司", "公司的公司", "公司办公司", "养护"}
  307. // 包含
  308. for _, word := range falseWords {
  309. if strings.Contains(name, word) {
  310. res = false
  311. log.Info("TDName", zap.String("falseWords", word), zap.String("name", name))
  312. return res
  313. }
  314. }
  315. return
  316. }
  317. // ruleBuyer 判断采购单位正确,名称错误返回true,名称正确返回false
  318. func ruleBuyer(input string) (res bool) {
  319. //开头的单词
  320. preWords := []string{"转发", "省", "会议室", "某", "某单位", "某公司", "某学校", "测试", "某大学", "某医院", "拟建", "机械", "县", "市", "区", "巡察", "人民路", "对", "楼", "家长", "春季", "对", "度", "初级中学", "州", "总部", "一号", "含", "育场", "选择", "第包", "医院",
  321. "共赢资产", "从", "实验中学", "公共", "乘用车", "部与", "一直", "一体化", "现对", "现为", "之", "份", "半坡", "下属", "程", "信息", "带", "工务", "技术", "于", "号", "辖属", "造", "计财", "实验", "原", "器械", "是", "师", "雨山区", "云城区", "阜涣", "公联", "批",
  322. "总承包", "姓市", "秋季学期", "哈巴河", "保险", "开发区", "尘设资", "团", "物业", "农村", "部", "二", "后勤", "位于", "选定", "依法", "口", "代表", "这", "逝沮省", "上半年", "第一", "门市", "配套", "八月", "七月", "集回", "维修", "遴选", "但", "增加",
  323. "取消", "采购", "一直", "一体化", "现对", "现为", "之", "份", "取消", "转发", "省", "会议室", "某", "某单位", "某公司", "某学校", "测试", "某大学", "某医院", "拟建", "机械", "县", "市", "区", "巡察", "人民", "对", "楼", "家长", "春季", "于", "度", "初级中学", "州", "总部", "一号", "含", "育场", "选择", "第包", "医院",
  324. "共赢资产", "从", "实验中学", "公共", "乘用车", "部与", "一直", "一体化", "现对", "现为", "之", "份", "半坡", "下属", "程", "信息", "带", "工务", "技术", "于", "号", "辖属", "造", "计财", "实验", "原", "器械", "是", "师", "阜涣", "公联", "批",
  325. "总承包", "姓市", "秋季学期", "哈巴河", "保险", "开发区", "尘设资", "团", "物业", "农村", "部", "东省", "于", "章", "董", "分局", "再", "微", "明", "建", "公司", "审计", "满足", "中学", "届", "大学", "按摩", "中心", "附属", "总", "教育局", "中学", "小学", "学院",
  326. "中医院", "人医院", "学校", "输", "十六", "有限", "节能", "二公司", "分公司", "子公司", "公司", "审计", "河河", "地公司", "六公司", "三公司", "十六公司", "节能", "股份", "运输公司", "堇", "家纺", "港区", "检查"}
  327. //开头关键词
  328. for _, word := range preWords {
  329. if strings.HasPrefix(input, word) {
  330. res = true
  331. return res
  332. }
  333. }
  334. //结尾关键词
  335. suffixes := []string{"院院", "局局", "场场", "小学室", "和社", "人屡政府", "谈话室", "小区局", "今作社", "点场", "人昆政府",
  336. "年度室", "分行银行", "人政府", "人民矢院", "教学楼局", "笺理局", "地场", "人民唉院", "瞥理局", "所院", "农业衣村局",
  337. "民丢局", "委员会老干部", "办非处", "等支局", "监督站局", "停车库局", "检查员", "办直处", "进行局", "楼局", "等局", "人民政府社",
  338. "模块局", "人民政俯", "人民医标院", "农业农局", "园局", "规则局", "人乓政府", "人事条局", "箐理所", "在政府", "重点局", "大学入场",
  339. "入场", "发也站", "赘源局", "计划生育服务中心政府", "第一人民吹院", "有限公司室", "教标育局", "一民政府", "场部", "埋局", "大学大学",
  340. "分公司分公司", "医院医院", "测试", "公司", "市", "显微镜", "段", "现场局", "租赁"}
  341. for _, word := range suffixes {
  342. if strings.HasSuffix(input, word) {
  343. res = true
  344. return res
  345. }
  346. }
  347. //包含的关键词
  348. specials := []string{"丿", "艹", "[ ", "【", "?", "亻", "#", "~", "^", "亻", "*", "$", "、", "/", "*",
  349. "<>", "[ ", "【", "?", "某", "我", "第一轮", "第一次", "第一词", "第一季", "各学校", "第一批", "完全学校",
  350. "一致同意", "X", "保体障局", "人们政府", "上设局", "开发茎", "场场", "设保", "武鳖", "集回", "项日", "代理银行",
  351. "辽宁省省会", "菖处", "口国", "人民汰院", "肉州市", "火车站社", "自然资源和规局", "萎员会", "经济技术开发茎",
  352. "()", "()", "有限公司厂", "测试", "建设建设", "建设规模", "满足", "郑州郑州", "学校学校", "&", ";", ";",
  353. "就医院", "酒医院", "至医院", "所需", "提升", "提高", "学期", "学年", "规模", "必须", "建成", "各公司",
  354. "养护", "拿", "艹", "关于", "要求", "举办", "显示所", "右阴公司", "发射", "加装", "扩建", "道路维修", "等所",
  355. "维稳中心", "异议", "任务", "分包", "其他", "行为", "中标人", "教室", "安置", "暂行", "选聘", "合同", "转发",
  356. "勿救", "既有", "装置", "开展", "依据", "指定", "一般用", "采供", "修缮", "招标单位", "联系方式", "沟通",
  357. "该项目", "安装", "造价", "样品", "课室", "水毁道路", "闲置资产", "某单位", "某公司", "某学校", "测试", "某大学", "某医院", "地产鲨", "项目组",
  358. "公国司", "评估与医院", "年室", "招标", "设有", "复限公司", "罩套", "有阴公", "人队", "报告",
  359. "显微镜", "现场局", "租赁", "市中心", "勐阿糖厂", "展厅", "等医院", "广场室", "水利顷", "市室", "交界处", "自助银行",
  360. "若源局", "布局", "联合体", "气室", "活动场", "包装公司", "急件", "核实", "测汞仪", "黑名单", "制作类",
  361. "大学大学", "学院学院", "大学场", "学校室", "部队部队", "内部", "部分支公司", "短管", "投标文件", "汇编", "收购"}
  362. for _, v := range specials {
  363. if strings.Contains(input, v) {
  364. res = true
  365. return res
  366. }
  367. }
  368. return res
  369. }
  370. // SendUdpMsg 通知处理企业新增数据
  371. func SendUdpMsg(data map[string]interface{}, target *net.UDPAddr) {
  372. bytes, _ := json.Marshal(data)
  373. UdpClient.WriteUdp(bytes, udp.OP_TYPE_DATA, target)
  374. log.Info("SendUdpMsg", zap.Any("data", data), zap.Any("target", target))
  375. }
  376. // deletePreEsData 删除预处理索引数据
  377. //func deletePreEsData(preId string) {
  378. // now := time.Now()
  379. // month := int(time.Now().Month())
  380. // monthStr := strconv.Itoa(month)
  381. // year := time.Now().Year()
  382. // yearStr := strconv.Itoa(year)
  383. // //当前处理索引名称
  384. // preBiddingIndex := fmt.Sprintf("bidding_%s%s", yearStr, monthStr)
  385. // lastIndex := ""
  386. //
  387. // //按小时创建
  388. // if config.Conf.Env.SpecType == "hour" {
  389. // preBiddingIndex = preBiddingIndex + strconv.Itoa(now.Day()) + strconv.Itoa(now.Hour())
  390. // last := now.Add(-time.Hour)
  391. // month2 := int(last.Month())
  392. // monthStr2 := strconv.Itoa(month2)
  393. // year2 := last.Year()
  394. // yearStr2 := strconv.Itoa(year2)
  395. // dayStr2 := strconv.Itoa(last.Day())
  396. // //上个索引名称
  397. // lastIndex = "bidding_" + yearStr2 + monthStr2
  398. // lastIndex = lastIndex + dayStr2 + strconv.Itoa(last.Hour())
  399. //
  400. // } else if config.Conf.Env.SpecType == "day" {
  401. // //按天创建
  402. // preBiddingIndex = preBiddingIndex + strconv.Itoa(time.Now().Day())
  403. // last := now.AddDate(0, 0, -1)
  404. // month2 := int(last.Month())
  405. // monthStr2 := strconv.Itoa(month2)
  406. // year2 := last.Year()
  407. // yearStr2 := strconv.Itoa(year2)
  408. // dayStr2 := strconv.Itoa(last.Day())
  409. // //上个索引名称
  410. // lastIndex = "bidding_" + yearStr2 + monthStr2
  411. // lastIndex = lastIndex + dayStr2
  412. //
  413. // } else if config.Conf.Env.SpecType == "month" {
  414. // // 月份;
  415. // last := now.AddDate(0, -1, 0)
  416. // month2 := int(last.Month())
  417. // monthStr2 := strconv.Itoa(month2)
  418. // year2 := last.Year()
  419. // yearStr2 := strconv.Itoa(year2)
  420. // //上个索引名称
  421. // lastIndex = "bidding_" + yearStr2 + monthStr2
  422. // }
  423. //
  424. // //删除预处理 索引数据
  425. // if len(PreEs) == 0 {
  426. // time.Sleep(time.Second)
  427. // }
  428. // for _, client := range PreEs {
  429. // if client == nil {
  430. // continue
  431. // }
  432. // // 老索引有数据
  433. // if client.Count(lastIndex, nil) > 0 {
  434. // err := client.DeleteByID(lastIndex, preId)
  435. // if err != nil {
  436. // fmt.Println("deletePreEsData: ", preId, err)
  437. // }
  438. // }
  439. //
  440. // err := client.DeleteByID(preBiddingIndex, preId)
  441. // if err != nil {
  442. // fmt.Println("deletePreEsData: ", preId, err)
  443. // }
  444. // }
  445. //
  446. //}
  447. // saveDb 文件写入
  448. func saveDb() {
  449. mutex.Lock()
  450. defer mutex.Unlock()
  451. // 如果 cache 为空,则无需执行写入操作
  452. if cache == nil {
  453. log.Error("saveDb", zap.Any("cache", "为空"))
  454. }
  455. if cache.GetCardinality() > 0 {
  456. fo, err := os.OpenFile(*dbfile, os.O_CREATE|os.O_RDWR|os.O_SYNC|os.O_TRUNC, 0777)
  457. if err != nil {
  458. log.Info("saveDb", zap.Error(err))
  459. }
  460. defer fo.Close()
  461. _, err = cache.WriteTo(fo)
  462. if err != nil {
  463. log.Info("saveDb", zap.Any("cache.WriteTo", err))
  464. }
  465. }
  466. }
  467. // getNewName 获取新的不重复名称
  468. func getNewName(tmp map[string]interface{}) string {
  469. projectName := util.ObjToString(tmp["projectname"])
  470. projectCode := util.ObjToString(tmp["projectcode"])
  471. buyer := util.ObjToString(tmp["buyer"])
  472. firsttime := util.Int64All(tmp["firsttime"])
  473. createtime := util.Int64All(tmp["createtime"])
  474. var projectDate, createDate string
  475. if firsttime > 0 {
  476. projectDate = time.Unix(firsttime, 0).Format("2006-01-02")
  477. }
  478. if createtime > 0 {
  479. createDate = time.Unix(createtime, 0).Format("2006-01-02")
  480. }
  481. var matchWords = make([]string, 0)
  482. if list, ok := tmp["list"].([]interface{}); ok {
  483. if len(list) > 0 {
  484. for _, v := range list {
  485. if da, ok := v.(map[string]interface{}); ok {
  486. title := util.ObjToString(da["title"])
  487. // 使用正则表达式进行匹配
  488. matches := GetPackages(title)
  489. for _, v := range matches {
  490. if !IsInStringArray(v, matchWords) {
  491. matchWords = append(matchWords, v)
  492. }
  493. }
  494. }
  495. }
  496. }
  497. }
  498. //pks := removeDuplicates(matchWords)
  499. packages := strings.Join(matchWords, "、")
  500. return RenameProjectName(projectName, projectCode, packages, projectDate, buyer, createDate)
  501. }
  502. // hash 计算hash
  503. func hash(src string) uint64 {
  504. return xxhash.Sum64String(src)
  505. }
  506. // RenameProjectName 获取新的不重复的项目名称
  507. func RenameProjectName(projectName, projectCode, packages, projectDate, buyer, createDate string) (newName string) {
  508. //TODO 1.判断项目名称是否重复
  509. var id uint64
  510. defer func() {
  511. if id > 0 && newName != "" {
  512. cache.Add(uint32(id))
  513. cacheModify = true
  514. }
  515. }()
  516. //1.项目名称
  517. if projectName != "" {
  518. id = hash(projectName)
  519. if !cache.Contains(uint32(id)) {
  520. newName = projectName
  521. return projectName
  522. }
  523. }
  524. //TODO 2.1 项目名称+项目编码
  525. if projectCode != "" {
  526. newName = projectName + "_" + projectCode
  527. id = hash(newName)
  528. if !cache.Contains(uint32(id)) {
  529. return newName
  530. }
  531. }
  532. //TODO 2.2 项目名称+分包信息
  533. if packages != "" {
  534. newName = projectName + "_" + packages
  535. id = hash(newName)
  536. if !cache.Contains(uint32(id)) {
  537. return newName
  538. }
  539. }
  540. //TODO 2.3 项目名称+项目时间
  541. if projectDate != "" {
  542. newName = projectName + "_" + projectDate
  543. id = hash(newName)
  544. if !cache.Contains(uint32(id)) {
  545. return newName
  546. }
  547. }
  548. //TODO 2.4 项目名称+采购单位名称
  549. if buyer != "" {
  550. newName = projectName + "_" + buyer
  551. id = hash(newName)
  552. if !cache.Contains(uint32(id)) {
  553. return newName
  554. }
  555. }
  556. //TODO 3.1 项目名称+项目编码+分包信息
  557. if projectCode != "" && packages != "" {
  558. newName = projectName + "_" + projectCode + "_" + packages
  559. id = hash(newName)
  560. if !cache.Contains(uint32(id)) {
  561. return newName
  562. }
  563. }
  564. //TODO 3.2 项目名称+项目编码+项目时间
  565. if projectCode != "" && projectDate != "" {
  566. newName = projectName + "_" + projectCode + "_" + projectDate
  567. id = hash(newName)
  568. if !cache.Contains(uint32(id)) {
  569. return newName
  570. }
  571. }
  572. //TODO 3.3 项目名称+项目编码+采购单位
  573. if projectCode != "" && buyer != "" {
  574. newName = projectName + "_" + projectCode + "_" + buyer
  575. id = hash(newName)
  576. if !cache.Contains(uint32(id)) {
  577. return newName
  578. }
  579. }
  580. //TODO 3.4 项目名称+分包+项目时间
  581. if packages != "" && projectDate != "" {
  582. newName = projectName + "_" + packages + "_" + projectDate
  583. id = hash(newName)
  584. if !cache.Contains(uint32(id)) {
  585. return newName
  586. }
  587. }
  588. //TODO 3.5 项目名称+分包+采购单位
  589. if packages != "" && buyer != "" {
  590. newName = projectName + "_" + packages + "_" + buyer
  591. id = hash(newName)
  592. if !cache.Contains(uint32(id)) {
  593. return newName
  594. }
  595. }
  596. //TODO 3.6 项目名称+项目时间+采购单位
  597. if projectDate != "" && buyer != "" {
  598. newName = projectName + "_" + projectDate + "_" + buyer
  599. id = hash(newName)
  600. if !cache.Contains(uint32(id)) {
  601. return newName
  602. }
  603. }
  604. //TODO 4.1 项目名称+项目编码+分包信息+项目时间
  605. if projectCode != "" && packages != "" && projectDate != "" {
  606. newName = projectName + "_" + projectCode + "_" + packages + "_" + projectDate
  607. id = hash(newName)
  608. if !cache.Contains(uint32(id)) {
  609. return newName
  610. }
  611. }
  612. //TODO 4.2 项目名称+项目编码+分包信息+采购单位
  613. if projectCode != "" && packages != "" && buyer != "" {
  614. newName = projectName + "_" + projectCode + "_" + packages + "_" + buyer
  615. id = hash(newName)
  616. if !cache.Contains(uint32(id)) {
  617. return newName
  618. }
  619. }
  620. //TODO 5 项目名称+项目编码+分包信息+项目时间+采购单位
  621. if projectCode != "" && packages != "" && projectDate != "" && buyer != "" {
  622. newName = projectName + "_" + projectCode + "_" + packages + "_" + projectDate + "_" + buyer
  623. id = hash(newName)
  624. if !cache.Contains(uint32(id)) {
  625. return newName
  626. }
  627. } else {
  628. newName = projectName + "_" + projectCode + "_" + packages + "_" + projectDate + "_" + buyer + "_" + createDate
  629. id = hash(newName)
  630. if !cache.Contains(uint32(id)) {
  631. return newName
  632. } else {
  633. newName = ""
  634. }
  635. }
  636. return
  637. }
  638. // GetPackages 获取对应的分包
  639. func GetPackages(title string) (res []string) {
  640. // 定义正则表达式
  641. rea := regexp.MustCompile(`包\d{1,2}[-~、]\d{1,2}|\d{1,2}[-~、]\d{1,2}包`) //1-6包;01-06包;01、02包;包1、包2
  642. //text := "中国绿发投资集团有限公司直属项目公司2023年第20批集中采购非招标项目(包10、12、14、17、18、19"
  643. packages := rea.FindAllString(util.ObjToString(title), -1) //匹配的包
  644. if len(packages) > 0 {
  645. res = append(res, packages...)
  646. }
  647. reb := regexp.MustCompile(`(标段[1-9一二三四五六七八九]|[1-9一二三四五六七八九]标段|包[1-9一二三四五六七八九]?[0-9]|[1-9一二三四五六七八九]?[0-9]包|[a-kA-K]包)`) // 标题只有一个包2
  648. pgs := reb.FindAllString(title, -1)
  649. if len(pgs) > 0 {
  650. for _, v := range pgs {
  651. if !IsInStringArray(v, res) {
  652. res = append(res, v)
  653. }
  654. }
  655. }
  656. return res
  657. }