dongzhaorui 3 年之前
父节点
当前提交
263ab92f46
共有 1 个文件被更改,包括 4 次插入1 次删除
  1. 4 1
      find_source/crawler/utils.py

+ 4 - 1
find_source/crawler/utils.py

@@ -31,4 +31,7 @@ def extract_domain(url):
 
 
 def extract_page_title(html):
 def extract_page_title(html):
     element = html2element(html)
     element = html2element(html)
-    return "".join(element.xpath('/html/head/title/text()')).strip()
+    nodes = element.xpath('/html/head/title/text()')
+    if len(nodes) > 1:
+        return "".format(nodes[-1]).strip()
+    return "".join(nodes).strip()