Преглед на файлове

过滤删选空格换行回车字符,同时对长度大于50的字符串,截断等于50

dongzhaorui преди 3 години
родител
ревизия
599c8ed450
променени са 1 файла, в които са добавени 3 реда и са изтрити 0 реда
  1. 3 0
      find_source/crawler/analysis/DomAnalysis.py

+ 3 - 0
find_source/crawler/analysis/DomAnalysis.py

@@ -45,6 +45,9 @@ class DomAnalysis(FilterUrl):
 
         def _extract():
             name = (tag.text if len(tag.text) != 0 else None or tag.parent.text)
+            name = "".join(name.split())
+            if len(name) > 50:
+                name = "{:.50s}".format(name)
             if tag.get('href') is None:
                 return
             href = self.filter(tag.get('href'))