|
@@ -366,7 +366,7 @@ def remove_htmldata(remove_info_list:list, html:str, response):
|
|
return html
|
|
return html
|
|
|
|
|
|
|
|
|
|
-def extract_file_type(file_name="附件名", file_url="附件地址"):
|
|
|
|
|
|
+def extract_file_type(file_name="附件名", file_url="附件地址",file_type=[]):
|
|
"""
|
|
"""
|
|
抽取附件类型
|
|
抽取附件类型
|
|
Args:
|
|
Args:
|
|
@@ -380,6 +380,8 @@ def extract_file_type(file_name="附件名", file_url="附件地址"):
|
|
file_name = file_name.strip()
|
|
file_name = file_name.strip()
|
|
file_types = ['zip', 'docx', 'ftp', 'pdf', 'doc', 'rar', 'gzzb', 'hzzbs',
|
|
file_types = ['zip', 'docx', 'ftp', 'pdf', 'doc', 'rar', 'gzzb', 'hzzbs',
|
|
'jpg', 'png', 'zbid', 'xls', 'xlsx', 'swp', 'dwg']
|
|
'jpg', 'png', 'zbid', 'xls', 'xlsx', 'swp', 'dwg']
|
|
|
|
+ if file_type:
|
|
|
|
+ file_types.extend(file_type)
|
|
|
|
|
|
file_type = file_url.split('?')[0].split('.')[-1].lower()
|
|
file_type = file_url.split('?')[0].split('.')[-1].lower()
|
|
if file_type not in file_types:
|
|
if file_type not in file_types:
|
|
@@ -388,4 +390,5 @@ def extract_file_type(file_name="附件名", file_url="附件地址"):
|
|
return file_type
|
|
return file_type
|
|
else:
|
|
else:
|
|
return file_type
|
|
return file_type
|
|
- return None
|
|
|
|
|
|
+ return None
|
|
|
|
+
|