Przeglądaj źródła

抽取初始化增加分块配置

wcj 6 lat temu
rodzic
commit
2c00f369ea
1 zmienionych plików z 21 dodań i 20 usunięć
  1. 21 20
      src/jy/extract/extract.go

+ 21 - 20
src/jy/extract/extract.go

@@ -45,6 +45,7 @@ func StartExtractTestTask(taskId, startId, num, resultcoll, trackcoll string) bo
 	ext.InitRuleBacks()
 	ext.InitRuleCore()
 	ext.InitPkgCore()
+	ext.InitBlockRule()
 	ext.InitTag()
 	ext.InitClearFn()
 	if ext.IsExtractCity { //版本上控制是否开始城市抽取
@@ -116,6 +117,7 @@ func StartExtractTaskId(taskId string) bool {
 	ext.InitRuleBacks()
 	ext.InitRuleCore()
 	ext.InitPkgCore()
+	ext.InitBlockRule()
 	ext.InitTag()
 	ext.InitClearFn()
 	if ext.IsExtractCity { //版本上控制是否开始城市抽取
@@ -238,11 +240,11 @@ func (e *ExtractTask) PreInfo(doc map[string]interface{}) (j, jf *ju.Job) {
 		toptype = "*"
 	}
 	j = &ju.Job{
-		SourceMid:  qu.BsonIdToSId(doc["_id"]),
-		Category:   toptype,
-		CategorySecond:subtype,
-		Content:    qu.ObjToString(doc["detail"]),
-		SpiderCode: qu.ObjToString(doc["spidercode"]),
+		SourceMid:      qu.BsonIdToSId(doc["_id"]),
+		Category:       toptype,
+		CategorySecond: subtype,
+		Content:        qu.ObjToString(doc["detail"]),
+		SpiderCode:     qu.ObjToString(doc["spidercode"]),
 		//Domain:     qu.ObjToString(doc["domain"]),
 		//Href:       qu.ObjToString(doc["href"]),
 		Title:     qu.ObjToString(doc["title"]),
@@ -330,12 +332,12 @@ func (e *ExtractTask) ExtractDetail(j *ju.Job) {
 		for _, v := range e.RulePres {
 			doc = ExtRegPre(doc, j, v, e.TaskInfo)
 		}
-		if j.CategorySecond=="" {
+		if j.CategorySecond == "" {
 			//抽取规则
-			tmprules:= map[string][]*RuleCore{}
+			tmprules := map[string][]*RuleCore{}
 			lock.Lock()
 			for k, vc1 := range e.RuleCores[j.Category] {
-				tmprules[k]=vc1
+				tmprules[k] = vc1
 			}
 			lock.Unlock()
 			for _, vc1 := range tmprules {
@@ -371,7 +373,7 @@ func (e *ExtractTask) ExtractDetail(j *ju.Job) {
 					// log.Debug("抽取-后置规则", tmp)
 				}
 			}
-		}else{
+		} else {
 			fmt.Println(e.RuleCores)
 			fmt.Println("++++++++++++++++")
 			fmt.Println(e.RuleCores[j.Category+"_"+j.CategorySecond])
@@ -469,12 +471,12 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 		doc := *j.Data
 		//全局前置规则,结果覆盖doc属性
 		for _, v := range e.RulePres {
-			if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+			if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 				doc = ExtRegPre(doc, j, v, e.TaskInfo)
 			}
 		}
 		//抽取规则
-		if j.CategorySecond==""{
+		if j.CategorySecond == "" {
 			for _, vc1 := range e.RuleCores[j.Category] {
 				for _, vc := range vc1 {
 					tmp := ju.DeepCopy(doc).(map[string]interface{})
@@ -484,7 +486,7 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 					}
 					//抽取-前置规则
 					for _, v := range vc.RulePres {
-						if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+						if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 							tmp = ExtRegPre(tmp, j, v, e.TaskInfo)
 						}
 					}
@@ -492,7 +494,7 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 
 					//抽取-规则
 					for _, v := range vc.RuleCores {
-						if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+						if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 							ExtRegCore(vc.ExtFrom, tmp, j, v, e)
 						}
 					}
@@ -500,14 +502,14 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 
 					//抽取-后置规则
 					for _, v := range vc.RuleBacks {
-						if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+						if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 							ExtRegBack(j, v, e.TaskInfo)
 						}
 					}
 					// log.Debug("抽取-后置规则", tmp)
 				}
 			}
-		}else{
+		} else {
 			for _, vc1 := range e.RuleCores[j.Category+"_"+j.CategorySecond] {
 				for _, vc := range vc1 {
 					tmp := ju.DeepCopy(doc).(map[string]interface{})
@@ -517,7 +519,7 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 					}
 					//抽取-前置规则
 					for _, v := range vc.RulePres {
-						if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+						if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 							tmp = ExtRegPre(tmp, j, v, e.TaskInfo)
 						}
 					}
@@ -525,7 +527,7 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 
 					//抽取-规则
 					for _, v := range vc.RuleCores {
-						if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+						if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 							ExtRegCore(vc.ExtFrom, tmp, j, v, e)
 						}
 					}
@@ -533,7 +535,7 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 
 					//抽取-后置规则
 					for _, v := range vc.RuleBacks {
-						if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+						if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 							ExtRegBack(j, v, e.TaskInfo)
 						}
 					}
@@ -542,10 +544,9 @@ func (e *ExtractTask) ExtractFile(j *ju.Job) {
 			}
 		}
 
-
 		//全局后置规则
 		for _, v := range e.RuleBacks {
-			if value, ok := e.FileFields.Load(v.Field);ok && qu.IntAllDef(value,1) >0{
+			if value, ok := e.FileFields.Load(v.Field); ok && qu.IntAllDef(value, 1) > 0 {
 				ExtRegBack(j, v, e.TaskInfo)
 			}
 		}