Prechádzať zdrojové kódy

解析类:删除xml标签

dongzhaorui 3 rokov pred
rodič
commit
d489ecad7d
1 zmenil súbory, kde vykonal 4 pridanie a 2 odobranie
  1. 4 2
      find_source/common/tools.py

+ 4 - 2
find_source/common/tools.py

@@ -13,8 +13,10 @@ def element2html(element: HtmlElement) -> str:
     return tostring(element, encoding="utf-8").decode()
 
 
-def html2element(html: str) -> HtmlElement:
-    return fromstring(html)
+def html2element(html_str: str) -> HtmlElement:
+    html_str = re.sub('</?br.*?>', '', html_str)
+    html_str = re.sub(r'<\?xml.*?>', '', html_str)
+    return fromstring(html_str)
 
 
 def valid_element(node: HtmlElement, feature: str):