瀏覽代碼

抽取附件类型优化

lizongze 2 年之前
父節點
當前提交
c90988eed5
共有 1 個文件被更改,包括 11 次插入4 次删除
  1. 11 4
      FworkSpider/untils/tools.py

+ 11 - 4
FworkSpider/untils/tools.py

@@ -383,9 +383,8 @@ def extract_file_type(file_name="附件名", file_url="附件地址",file_type=[
     Args:
         file_name: 附件名
         file_url: 附件地址
-
-    Returns:
-
+        file_type: 其他附件后缀
+    Returns: 附件类型
     """
     if file_name and file_url:
         file_name = file_name.strip()
@@ -396,9 +395,17 @@ def extract_file_type(file_name="附件名", file_url="附件地址",file_type=[
 
         file_type = file_url.split('?')[0].split('.')[-1].lower()
         if file_type not in file_types:
-            file_type = file_name.split('?')[0].split('.')[-1].lower()
+            file_type = file_url.split('?')[-1].split('.')[-1].lower()
             if file_type in file_types:
                 return file_type
+            else:
+                file_type = file_name.split('?')[0].split('.')[-1].lower()
+                if file_type in file_types:
+                    return file_type
+                else:
+                    file_type = file_name.split('?')[-1].split('.')[-1].lower()
+                    if file_type in file_types:
+                        return file_type
         else:
             return file_type
     return None