Эх сурвалжийг харах

detail提取发布时间工具调整

maxiaoshan 2 жил өмнө
parent
commit
cd93c3ae0a

+ 1 - 1
src/spiderutil/publishtime.go

@@ -13,7 +13,7 @@ var (
 	Date1       = regexp.MustCompile("(20|19)\\d{2}[\\s\u3000\u2003\u00a0]{0,}年[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}月[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}日")
 	Date2       = regexp.MustCompile("(20|19)\\d{2}[\\s\u3000\u2003\u00a0]{0,}[-/.]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}")
 	Date3       = regexp.MustCompile("发(布|表)(时间|日期)(从)?[\\s\u3000\u2003\u00a0::]{0,}\\d{4}[\\s\u3000\u2003\u00a0]{0,}[-/.年]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.月]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}日{0,}")
-	Date4       = regexp.MustCompile("(发布|发售时间|领取开始(及|和)截止时间|报名|公告|公示|开标|招标|询价|填报|(购买)?(文件|标书)(发售|出售|获取|起止|提供下载|购买|提供))(发布|起止)?(开始)?(时间|日期|期限)[\\s\u3000\u2003\u00a0::从于自为]*\\d{4}[\\s\u3000\u2003\u00a0]{0,}[-/.年]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.月]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}日{0,}")
+	Date4       = regexp.MustCompile("(发布|发售时间|领取开始(及|和)截止时间|报名|公告|公示|开标|竞价|招标|询价|填报|(购买)?(文件|标书)(发售|出售|获取|起止|提供下载|购买|提供))(发布|起止)?(开始)?(时间|日期|期限)[\\s\u3000\u2003\u00a0::从于自为]*\\d{4}[\\s\u3000\u2003\u00a0]{0,}[-/.年]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.月]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}日{0,}")
 	Date5       = regexp.MustCompile("于[\\s\u3000\u2003\u00a0]{0,}\\d{4}[\\s\u3000\u2003\u00a0]{0,}[-/.年][\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.月][\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.日].*?")
 	Date6       = regexp.MustCompile("(报名|招标|填报|(文件|标书)(的)?(发售|出售|获取|起止|提供下载|购买|提供))(发布)?(开始)?(时间|日期|期限).*?\\d{4}[\\s\u3000\u2003\u00a0]{0,}[-/.年]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}[-/.月]{1,}[\\s\u3000\u2003\u00a0]{0,}\\d{1,2}[\\s\u3000\u2003\u00a0]{0,}日{0,}")
 	Date7       = regexp.MustCompile("(公示|公告|报名)(期限|时间)[\\s\u3000\u2003\u00a0::从于自为]*[\\s\u3000\u2003\u00a0]*\\d{4}[\\s\u3000\u2003\u00a0]*[-/.年][\\s\u3000\u2003\u00a0]*\\d{1,2}[\\s\u3000\u2003\u00a0]*[-/.月][\\s\u3000\u2003\u00a0]*\\d{1,2}[\\s\u3000\u2003\u00a0]*[-/.日]*")

+ 1 - 1
src/spiderutil/upload.go

@@ -56,7 +56,7 @@ func Upload(code, fileName, url string, bt []byte) (string, string, string) {
 
 //返回下载链接,文件名称,文件大小,文件类型,文件fid
 func UploadFile(code, fileName, url string, bt []byte) (string, string, string, string, string) {
-	if bt == nil || len(bt) < 1024*5 {
+	if bt == nil || len(bt) < 1024*3 {
 		logger.Error("下载文件出错!", code, " upload file "+fileName, url)
 		return "", "", "", "", ""
 	}