Jelajahi Sumber

过滤删选空格换行回车字符,同时对长度大于50的字符串,截断等于50

dongzhaorui 3 tahun lalu
induk
melakukan
599c8ed450
1 mengubah file dengan 3 tambahan dan 0 penghapusan
  1. 3 0
      find_source/crawler/analysis/DomAnalysis.py

+ 3 - 0
find_source/crawler/analysis/DomAnalysis.py

@@ -45,6 +45,9 @@ class DomAnalysis(FilterUrl):
 
         def _extract():
             name = (tag.text if len(tag.text) != 0 else None or tag.parent.text)
+            name = "".join(name.split())
+            if len(name) > 50:
+                name = "{:.50s}".format(name)
             if tag.get('href') is None:
                 return
             href = self.filter(tag.get('href'))