3 years ago · 2096fc8cb5
--- a/find_source/common/tools.py
+++ b/find_source/common/tools.py
@@ -1,5 +1,6 @@
 
				 import datetime
			
 
				 import hashlib
			
 
				+import json
			
 
				 import time
			
 
				 
			
 
				 
			
@@ -69,3 +70,7 @@ def delay_by(delay=0, method='seconds', fmt="%Y-%m-%d %H:%M:%S"):
 
				     else:
			
 
				         _timedelta = datetime.timedelta(seconds=delay)
			
 
				     return (_current_now + _timedelta).strftime(fmt)
			
 
				+
			
 
				+
			
 
				+def detect_encoding(b):
			
 
				+    return json.detect_encoding(b)
			
--- a/find_source/crawler/analysis/TimeExtractor.py
+++ b/find_source/crawler/analysis/TimeExtractor.py
@@ -0,0 +1,52 @@
 
				+import re
			
 
				+
			
 
				+from lxml.html import HtmlElement
			
 
				+
			
 
				+DATETIME_PATTERN = [
			
 
				+    "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[2][0-3]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[2][0-3]:[0-5]?[0-9])",
			
 
				+    "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[1-24]\d时[0-60]\d分)([1-24]\d时)",
			
 
				+    "(\d{2}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{2}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[2][0-3]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{2}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{2}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[2][0-3]:[0-5]?[0-9])",
			
 
				+    "(\d{2}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[1-24]\d时[0-60]\d分)([1-24]\d时)",
			
 
				+    "(\d{1,2}[-|/|.]\d{1,2})",
			
 
				+    "(\d{4}年\d{1,2}月\d{1,2}日\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{4}年\d{1,2}月\d{1,2}日\s*?[2][0-3]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{4}年\d{1,2}月\d{1,2}日\s*?[0-1]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{4}年\d{1,2}月\d{1,2}日\s*?[2][0-3]:[0-5]?[0-9])",
			
 
				+    "(\d{4}年\d{1,2}月\d{1,2}日\s*?[1-24]\d时[0-60]\d分)([1-24]\d时)",
			
 
				+    "(\d{2}年\d{1,2}月\d{1,2}日\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{2}年\d{1,2}月\d{1,2}日\s*?[2][0-3]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{2}年\d{1,2}月\d{1,2}日\s*?[0-1]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{2}年\d{1,2}月\d{1,2}日\s*?[2][0-3]:[0-5]?[0-9])",
			
 
				+    "(\d{2}年\d{1,2}月\d{1,2}日\s*?[1-24]\d时[0-60]\d分)([1-24]\d时)",
			
 
				+    "(\d{1,2}月\d{1,2}日\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{1,2}月\d{1,2}日\s*?[2][0-3]:[0-5]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{1,2}月\d{1,2}日\s*?[0-1]?[0-9]:[0-5]?[0-9])",
			
 
				+    "(\d{1,2}月\d{1,2}日\s*?[2][0-3]:[0-5]?[0-9])",
			
 
				+    "(\d{1,2}月\d{1,2}日\s*?[1-24]\d时[0-60]\d分)([1-24]\d时)",
			
 
				+    "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2})",
			
 
				+    "(\d{2}[-|/|.]\d{1,2}[-|/|.]\d{1,2})",
			
 
				+    "(\d{4}年\d{1,2}月\d{1,2}日)",
			
 
				+    "(\d{2}年\d{1,2}月\d{1,2}日)",
			
 
				+    "(\d{1,2}月\d{1,2}日)"
			
 
				+]
			
 
				+
			
 
				+
			
 
				+class TimeExtractor:
			
 
				+    def __init__(self):
			
 
				+        self.time_pattern = DATETIME_PATTERN
			
 
				+
			
 
				+    def extractor(self, element: HtmlElement) -> str:
			
 
				+        # text = ''.join(element.xpath('.//text()'))
			
 
				+        text = ''.join(element.xpath('string(.)'))
			
 
				+        for dt in self.time_pattern:
			
 
				+            dt_obj = re.search(dt, text)
			
 
				+            if dt_obj:
			
 
				+                return dt_obj.group(1)
			
 
				+        else:
			
 
				+            return ''
			
--- a/find_source/crawler/analysis/__init__.py
+++ b/find_source/crawler/analysis/__init__.py
@@ -1,9 +1,11 @@
 
				 from .DomAnalysis import DomAnalysis
			
 
				+from .TimeExtractor import TimeExtractor
			
 
				 
			
 
				 __all__ = [
			
 
				     'parse_urls',
			
 
				     'parser_items',
			
 
				-    'Parser'
			
 
				+    'Parser',
			
 
				+    'TimeExtractor'
			
 
				 ]
			
 
				 
			
 
				 
			
--- a/find_source/crawler/defaults.py
+++ b/find_source/crawler/defaults.py
@@ -0,0 +1,57 @@
 
				+
			
 
				+
			
 
				+TAGS_CAN_BE_REMOVE_IF_EMPTY = ['section', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'span']
			
 
				+
			
 
				+USELESS_TAG = [
			
 
				+    'style',
			
 
				+    'script',
			
 
				+    'link',
			
 
				+    'video',
			
 
				+    'iframe',
			
 
				+    'source',
			
 
				+    'picture',
			
 
				+    'blockquote',
			
 
				+    'input',
			
 
				+    'footer',
			
 
				+    'img',
			
 
				+]
			
 
				+USELESS_ATTR = {
			
 
				+    'share',
			
 
				+    'contribution',
			
 
				+    'copyright',
			
 
				+    'copy-right',
			
 
				+    'disclaimer',
			
 
				+    'recommend',
			
 
				+    'related',
			
 
				+    'footer',
			
 
				+    'foot',
			
 
				+    'comment',
			
 
				+    'hearder',
			
 
				+    'social',
			
 
				+    'submeta',
			
 
				+    'report-infor',
			
 
				+    'tfooter',
			
 
				+    'logo',
			
 
				+    'bottom',
			
 
				+    'nav',
			
 
				+    'top',
			
 
				+    'position',
			
 
				+    'location',
			
 
				+    'page',
			
 
				+    'navigation',
			
 
				+}
			
 
				+
			
 
				+
			
 
				+KEYWORDS = {
			
 
				+    '招标', '流标', '评标', '询价', '中标候选人', '抽签', '谈判', '中选', '意见征询',
			
 
				+    '更正公告', '废标', '补遗', '议价', '邀请', '资格预审', '竞标', '变更', '遴选',
			
 
				+    '磋商', '项目', '评审', '询比', '开标', '澄清', '比选', '中止', '采购', '竟价',
			
 
				+    '招投标', '拟建', '成交', '中标', '竞争性谈判', '工程', '验收公告', '更正',
			
 
				+    '单一来源', '变更公告', '合同', '违规', '评判', '监理', '竞价', '答疑',
			
 
				+    '终止', '系统'
			
 
				+}
			
 
				+
			
 
				+FOOTER_TEXTS = {'网安备', '关于我们', '地图', '建议意见', '法律声明', '信箱'}
			
 
				+CATEGORY_TEXTS = {'政策', '办事指南', '首页', '党'}
			
 
				+PAGE_TEXTS = {'尾页', '下页', '下一页'}
			
 
				+LOGIN_TEXTS = {'忘记密码', '登录', '注册'}
			
--- a/find_source/crawler/utils.py
+++ b/find_source/crawler/utils.py
@@ -1,11 +1,18 @@
 
				 import re
			
 
				+from html import unescape
			
 
				 from urllib.parse import urlencode, urljoin
			
 
				 
			
 
				 from bs4 import BeautifulSoup
			
 
				-from lxml.html import HtmlElement, fromstring, tostring
			
 
				+from lxml.html import etree, HtmlElement, fromstring, tostring
			
 
				 from urllib3 import get_host
			
 
				 
			
 
				 from common.log import logger
			
 
				+from crawler.defaults import (
			
 
				+    USELESS_TAG,
			
 
				+    USELESS_ATTR,
			
 
				+    TAGS_CAN_BE_REMOVE_IF_EMPTY,
			
 
				+    KEYWORDS,
			
 
				+)
			
 
				 
			
 
				 
			
 
				 def err_details(worker):
			
@@ -39,8 +46,8 @@ def extract_domain(url):
 
				     return f"{host}" if port is None else f"{host}:{port}"
			
 
				 
			
 
				 
			
 
				-def extract_page_title(html):
			
 
				-    element = html2element(html)
			
 
				+def extract_page_title(source):
			
 
				+    element = html2element(source)
			
 
				     nodes = element.xpath('/html/head/title/text()|//title/text()')
			
 
				     if len(nodes) > 1:
			
 
				         return "".join(";".join(nodes).split())
			
@@ -86,31 +93,59 @@ def get_url(url: str, parameters: dict):
 
				     return urljoin(url, _data)
			
 
				 
			
 
				 
			
 
				-def iter_node(element: HtmlElement, depth=1):
			
 
				-    yield element, depth
			
 
				-    depth += 1
			
 
				-    for sub_element in element:
			
 
				-        if isinstance(sub_element, HtmlElement):
			
 
				-            yield from iter_node(sub_element, depth)
			
 
				+def clean_html(source: str):
			
 
				+    html_str = re.sub(r'<!--[\s\S]*?-->', '', source)
			
 
				+    html_str = re.sub(r'<html>|<html [^>]*>|</html>', '', html_str)
			
 
				+    html_str = re.sub(r'<head>[\s\S]*?</head>', '', html_str)
			
 
				+    html_str = re.sub(r'<script[^<>]*>[\s\S]*?</script>|</script>', '', html_str)
			
 
				+    html_str = re.sub(r'<style[^<>]*>[\s\S]*?</style>', '', html_str)
			
 
				+    html_str = re.sub(r'<link[^<>]*>[\s\S]*?', '', html_str)
			
 
				+    html_str = re.sub(r'<img[^>]*>', '', html_str)
			
 
				+    return html_str
			
 
				+
			
 
				+
			
 
				+def extract_text(source: str):
			
 
				+    soup = BeautifulSoup(source, "lxml")
			
 
				+    return soup.get_text()
			
 
				+
			
 
				+
			
 
				+def verify_text(val: str, length=50):
			
 
				+    """检查数字、字母、中文的个数"""
			
 
				+    if val is None:
			
 
				+        return False
			
 
				+    sub_pattern = ['<[^>]+>', '[^0-9a-zA-Z\u4e00-\u9fa5]+']
			
 
				+    for pattern in sub_pattern:
			
 
				+        val = re.sub(pattern, '', val)
			
 
				+    # 若文本长度小于指定文本长度（length），表示页面内容无详情内容
			
 
				+    if len(val) < length:
			
 
				+        '''无效文本'''
			
 
				+        return False
			
 
				+    '''有效文本'''
			
 
				+    return True
			
 
				 
			
 
				 
			
 
				 def element2html(element: HtmlElement) -> str:
			
 
				-    return tostring(element, encoding="utf-8").decode()
			
 
				+    return unescape(tostring(element, encoding="utf-8").decode())
			
 
				 
			
 
				 
			
 
				-def html2element(html_str: str, base_url=None) -> HtmlElement:
			
 
				-    html_str = re.sub('\ufeff|\xa0|\u3000|\x00', '', html_str)
			
 
				+def html2element(source: str, base_url=None) -> HtmlElement:
			
 
				+    html_str = re.sub('\ufeff|\xa0|\u3000|\x00', '', source)
			
 
				+    html_str = re.sub('<!--[\s\S]*?-->', '', html_str)  # 清除注释
			
 
				+    html_str = re.sub(r'<style[^<>]*>[\s\S]*?</style>', '', html_str)  # 清除样式
			
 
				+    html_str = re.sub(r'<script[^<>]*>[\s\S]*?</script>', '', html_str)  # 清除js
			
 
				     html_str = re.sub('</?br.*?>', '', html_str)
			
 
				     html_str = re.sub(r'<\?xml.*?>', '', html_str)
			
 
				     html_str = re.sub(r'<[!]DOCTYPE.*?>', '', html_str)
			
 
				     return fromstring(html_str, base_url=base_url)
			
 
				 
			
 
				 
			
 
				-def valid_element(node: HtmlElement, feature: str):
			
 
				-    if len(node.xpath(feature)) > 0:
			
 
				-        return True
			
 
				-    else:
			
 
				-        return False
			
 
				+def iter_node(element: HtmlElement, depth=1):
			
 
				+    yield element, depth
			
 
				+    depth += 1
			
 
				+    for sub_element in element:
			
 
				+        if isinstance(sub_element, HtmlElement):
			
 
				+            yield from iter_node(sub_element, depth)
			
 
				+    # print('退出', depth)
			
 
				 
			
 
				 
			
 
				 def remove_node(node: HtmlElement):
			
@@ -121,7 +156,8 @@ def remove_node(node: HtmlElement):
 
				     """
			
 
				     parent = node.getparent()
			
 
				     if parent is not None:
			
 
				-        parent.remove(node)
			
 
				+        node.drop_tree()
			
 
				+        # parent.remove(node)
			
 
				 
			
 
				 
			
 
				 def drop_tag(node: HtmlElement):
			
@@ -135,32 +171,66 @@ def drop_tag(node: HtmlElement):
 
				         node.drop_tag()
			
 
				 
			
 
				 
			
 
				-def clean_html(html_str: str):
			
 
				-    html_str = re.sub(r'<!--[\s\S]*?-->', '', html_str)
			
 
				-    html_str = re.sub(r'<html>|<html [^>]*>|</html>', '', html_str)
			
 
				-    html_str = re.sub(r'<head>[\s\S]*?</head>', '', html_str)
			
 
				-    html_str = re.sub(r'<script[^<>]*>[\s\S]*?</script>|</script>', '', html_str)
			
 
				-    html_str = re.sub(r'<link[^<>]*>[\s\S]*?', '', html_str)
			
 
				-    html_str = re.sub(r'<style[^<>]*>[\s\S]*?</style>', '', html_str)
			
 
				-    html_str = re.sub(r'<img[^>]*>', '', html_str)
			
 
				-    return html_str
			
 
				+def is_empty_element(node: HtmlElement):
			
 
				+    return not node.getchildren() and not node.text
			
 
				 
			
 
				 
			
 
				-def extract_text(html_str: str):
			
 
				-    soup = BeautifulSoup(html_str, "lxml")
			
 
				-    return soup.get_text()
			
 
				+def normalize_node(element: HtmlElement):
			
 
				+    etree.strip_elements(element, *USELESS_TAG, with_tail=False)
			
 
				+    # 节点预处理，删除节点与更新节点的操作在同一循环发生时，更新节点的操作不会生效，原因：？
			
 
				+    # 空节点合并、噪声节点剔除
			
 
				+    for node, _ in iter_node(element):
			
 
				+        if node.tag.lower() in TAGS_CAN_BE_REMOVE_IF_EMPTY and is_empty_element(node):
			
 
				+            remove_node(node)
			
 
				 
			
 
				+        if node.tag.lower() == 'p':
			
 
				+            etree.strip_tags(node, 'span')
			
 
				+            etree.strip_tags(node, 'strong')
			
 
				 
			
 
				-def verify_text(val: str, length=50):
			
 
				+        # if a div tag does not contain any sub node, it could be converted to p node.
			
 
				+        if node.tag.lower() == 'div' and not node.getchildren():
			
 
				+            node.tag = 'p'
			
 
				+
			
 
				+        if node.tag.lower() == 'span' and not node.getchildren():
			
 
				+            node.tag = 'p'
			
 
				+
			
 
				+        # remove empty p tag
			
 
				+        if node.tag.lower() == 'p' and not node.xpath('.//img'):
			
 
				+            if not (node.text and node.text.strip()):
			
 
				+                drop_tag(node)
			
 
				+
			
 
				+        # Delete inline styles
			
 
				+        style = node.get('style')
			
 
				+        if style:
			
 
				+            del node.attrib['style']
			
 
				+
			
 
				+    # 删除包含干扰属性的节点（完全匹配）
			
 
				+    for node, _ in iter_node(element):
			
 
				+        attr = (node.get('id') or node.get('class'))
			
 
				+        if attr:
			
 
				+            if attr.lower() in USELESS_ATTR:
			
 
				+                remove_node(node)
			
 
				+                break
			
 
				+
			
 
				+    # # 删除无效节点（模糊匹配）
			
 
				+    # for node, _ in iter_node(element):
			
 
				+    #     attrib = (node.get('id') or node.get('class'))
			
 
				+    #     if attrib:
			
 
				+    #         for attr in USELESS_ATTR:
			
 
				+    #             if re.match(attr, attrib.lower()) is not None:
			
 
				+    #                 remove_node(node)
			
 
				+    #                 break
			
 
				+
			
 
				+
			
 
				+def pre_parse(element):
			
 
				+    normalize_node(element)
			
 
				+    return element
			
 
				+
			
 
				+
			
 
				+def is_title(val: str):
			
 
				     """检查数字、字母、中文的个数"""
			
 
				-    if val is None:
			
 
				-        return False
			
 
				-    sub_pattern = ['<[^>]+>', '[^0-9a-zA-Z\u4e00-\u9fa5]+']
			
 
				-    for pattern in sub_pattern:
			
 
				-        val = re.sub(pattern, '', val)
			
 
				-    # 若文本长度小于指定文本长度（length），表示页面内容无详情内容
			
 
				-    if len(val) < length:
			
 
				-        '''无效文本'''
			
 
				-        return False
			
 
				-    '''有效文本'''
			
 
				-    return True
			
 
				+    for keyword in KEYWORDS:
			
 
				+        search = re.search(keyword, val)
			
 
				+        if search is not None:
			
 
				+            return True
			
 
				+    return False