浏览代码

增加快照页清洗字段

lizongze 3 年之前
父节点
当前提交
847805f163
共有 1 个文件被更改,包括 3 次插入0 次删除
  1. 3 0
      ybw/crawler/clean_html.py

+ 3 - 0
ybw/crawler/clean_html.py

@@ -44,6 +44,9 @@ OTHER = {
     '(责任编辑:.*?)': '',
     '分享到[:]': '',
     '阅读数[::]\d+': '',
+    '关闭窗口':'',
+    '打印此页':'',
+    '内容纠错':'',
 }
 # 样式
 CSS_STYLE = {