فهرست منبع

增加快照页清洗字段

lizongze 3 سال پیش
والد
کامیت
847805f163
1فایلهای تغییر یافته به همراه3 افزوده شده و 0 حذف شده
  1. 3 0
      ybw/crawler/clean_html.py

+ 3 - 0
ybw/crawler/clean_html.py

@@ -44,6 +44,9 @@ OTHER = {
     '(责任编辑:.*?)': '',
     '(责任编辑:.*?)': '',
     '分享到[:]': '',
     '分享到[:]': '',
     '阅读数[::]\d+': '',
     '阅读数[::]\d+': '',
+    '关闭窗口':'',
+    '打印此页':'',
+    '内容纠错':'',
 }
 }
 # 样式
 # 样式
 CSS_STYLE = {
 CSS_STYLE = {