Browse Source

品牌抽取配置

unknown 6 years ago
parent
commit
5d02e9ea62

+ 25 - 18
src/jy/extract/extract.go

@@ -39,26 +39,30 @@ func StartExtractTestTask(taskId, startId, num, resultcoll, trackcoll string) bo
 	ext.IsRun = true
 	ext.InitTestTaskInfo(resultcoll, trackcoll)
 	ext.TaskInfo.FDB = db.MgoFactory(1, 3, 120, ext.TaskInfo.FromDbAddr, ext.TaskInfo.FromDB)
-	ext.InitRulePres()
-	ext.InitRuleBacks()
-	ext.InitRuleCore()
-	ext.InitPkgCore()
-	ext.InitTag()
-	ext.InitClearFn()
-	if ext.IsExtractCity { //版本上控制是否开始城市抽取
-		//初始化城市DFA信息
-		ext.InitDFA()
-	}
-	//质量审核
-	ext.InitAuditFields()
-	ext.InitAuditRule()
-	ext.InitAuditClass()
-	ext.InitAuditRecogField()
+	//	ext.InitRulePres()
+	//	ext.InitRuleBacks()
+	//	ext.InitRuleCore()
+	//	ext.InitPkgCore()
+	//	ext.InitTag()
+	//	ext.InitClearFn()
+	//	if ext.IsExtractCity { //版本上控制是否开始城市抽取
+	//		//初始化城市DFA信息
+	//		ext.InitDFA()
+	//	}
+	//	//质量审核
+	//	ext.InitAuditFields()
+	//	ext.InitAuditRule()
+	//	ext.InitAuditClass()
+	//	ext.InitAuditRecogField()
 
 	//品牌抽取
-	ext.InitBrand()
-	ext.InitGoods()
-	return RunExtractTestTask(ext, startId, num)
+	if ju.Config["brandgoods"].(bool) {
+		ext.InitBrand()
+		ext.InitGoods()
+	}
+
+	return true
+	//return RunExtractTestTask(ext, startId, num)
 }
 
 func IdTrans(startId string) bson.ObjectId {
@@ -74,6 +78,9 @@ func RunExtractTestTask(ext *ExtractTask, startId, num string) bool {
 		query := bson.M{"_id": bson.M{"$gte": bson.ObjectIdHex(startId)}}
 		list, _ := ext.TaskInfo.FDB.Find(ext.TaskInfo.FromColl, query, nil, Fields, false, 0, n)
 		for _, v := range *list {
+			if qu.ObjToString(v["sensitive"]) != "" { //去除含敏感词数据
+				continue
+			}
 			//log.Println(v["_id"])
 			j := PreInfo(v)
 			ext.TaskInfo.ProcessPool <- true

+ 2 - 4
src/jy/extract/extractbrandgoods.go

@@ -1,7 +1,6 @@
 package extract
 
 import (
-	"log"
 	qu "qfw/util"
 )
 
@@ -9,9 +8,8 @@ var GoodsConfig []string
 var BrandConfig []string
 
 func init() {
-	qu.ReadConfig("goods.json", &GoodsConfig)
-	qu.ReadConfig("brand.json", &BrandConfig)
-	log.Println(len(GoodsConfig), len(BrandConfig))
+	qu.ReadConfig("./res/goods.json", &GoodsConfig)
+	qu.ReadConfig("./res/brand.json", &BrandConfig)
 }
 
 //初始化商品

+ 1 - 1
src/main_test.go

@@ -14,7 +14,7 @@ import (
 func Test_task(t *testing.T) {
 	Mgo = MgoFactory(1, 3, 120, "192.168.3.207:27082", "extract_kf")
 	//extract.StartExtractTaskId("5b8f804025e29a290415aee1")
-	extract.StartExtractTestTask("5b8f804025e29a290415aee1", "5c2a49d0a5cb26b9b766bd98", "100", "mxs_v3", "mxs_v3")
+	extract.StartExtractTestTask("5b8f804025e29a290415aee1", "5c2a49d0a5cb26b9b766bd98", "1", "mxs_v3", "mxs_v3")
 	//extract.StartExtractTestTask("5c3d75c96984142998eb00e1", "5c2a3d28a5cb26b9b76144dd", "100", "mxs_v3", "mxs_v3")
 	time.Sleep(5 * time.Second)
 }

+ 0 - 0
src/brand.json → src/res/brand.json


+ 0 - 0
src/brandrule.json → src/res/brandrule.json


+ 0 - 0
src/goods.json → src/res/goods.json


+ 1 - 1
src/res/tablev1.json

@@ -2,7 +2,7 @@
 	"normalhead":[
 		"^((.{2,6}(名称|编号|代码|时间|类型|性质|行政区域|原因|项目|意见|须知|程度))|标段(编号)?|招标金额|规模|统一社会信用代码|拟?中标供应商|质量|(质量)?承诺|地址|招标代理|序号|材料|结构|结构层数|评委|单位|数量|排名|标的|标项|开户银行|邮编|账号|电话|传真|网址|得分|名次|包件?号|职务|(建设|招标|采购|中标|成交|甲|乙)(单位|人|供应商|方|规模).{0,2}|.{0,5}(价格?|额|资金|[预概]算|投资|费用|报价|投标价)(万?元?([大小]写)?))$__M",
 		"^.{0,7}(((单位)?名称|总监|经理|负责人|信息|率|费|期|人|方|号|码|(价格?|额|资金)(万?元?([大小]写)?)|员|品目|标包|代表|区域|方式|因素|合价|合计|小计|地点|条件|(资质|类别和)等级|类别|状态)|得分|注册专业|方法|家数|全称|简称|邮件|执业或职业资格|证书|部门|事项|来源|划分|长度|规模|保证金|目标)$__",
-		"(名单|证号|名称|要求|时间|日期|地点|单位|条款|机构|范围|情况|概况|品名|规格|参数|标准|指标|型号|限价|数量|方式|等级|依据|明细|概况|内容|性质|地区|地址|币种|主题|详情|说明|代理(公司|机构)|节支率|名单|结果|结果公示)$|^(职称|姓名|级别|职称专业|证书名称|证书编号)$__",
+		"(名单|证号|名称|要求|时间|日期|地点|单位|条款|机构|范围|情况|概况|品名|规格|参数|标准|指标|型号|限价|数量|方式|等级|依据|明细|概况|内容|次数|产品|性质|地区|地址|币种|主题|详情|说明|代理(公司|机构)|节支率|名单|结果|结果公示)$|^(职称|姓名|级别|职称专业|证书名称|证书编号)$__",
 		"^(联系|评标|单位|公告|采购|商品|附件|质保|用途|公示|机构|评审|品名|规格|参数|指标|型号|数量|证书).{0,10}$__",
 		"(专家|评委|打分)$__",
 		"品牌",