1 year ago · 495f3f35e2
--- a/FworkSpider/feapder/templates/detail_template.tmpl
+++ b/FworkSpider/feapder/templates/detail_template.tmpl
@@ -6,42 +6,39 @@ Created on {DATE}
 
															 ---------
														
 
															 @author: {USER}
														
 
															 """
														
 
															-import sys
														
 
															-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 from urllib.parse import urljoin
														
 
															 import feapder
														
 
															 from items.spider_item import DataBakItem
														
 
															 from untils.attachment import AttachmentDownloader
														
 
															-from untils.tools import remove_htmldata,extract_file_type
														
 
															+from untils.tools import remove_htmldata, extract_file_type
														
 
															 from feapder.utils.log import log
														
 
															 import time
														
 
															 import json
														
 
															 import re
														
 
															-
														
 
															-
														
 
															 class Details(feapder.BiddingDetailSpider):
														
 
															     def start_requests(self):
														
 
															         while True:
														
 
															             data_lsit = self.get_tasks_by_rabbitmq(limit=20)
														
 
															             for item in data_lsit:
														
 
															-                log.debug(item)
														
 
															+                # log.debug(item)
														
 
															                 request_params = item.get("request_params")
														
 
															-                timeout = request_params.pop('timeout',10)
														
 
															+                timeout = request_params.get('timeout', 10)
														
 
															+                request_params.pop('timeout', None)
														
 
															                 if item.get("js"):
														
 
															                     eval(item.get("js"))
														
 
															                 if item.get("ex_python"):
														
 
															                     exec(item.get("ex_python"))
														
 
															                 if item.get("proxies"):
														
 
															-                    yield feapder.Request(url=item.get("parse_url"), item=item,files_info=item.get("files"),
														
 
															+                    yield feapder.Request(url=item.get("parse_url"), item=item, files_info=item.get("files"),
														
 
															                                           deal_detail=item.get("deal_detail"), callback=eval(item.get("parse")),
														
 
															-                                          **request_params,timeout=timeout)
														
 
															+                                          **request_params, timeout=timeout)
														
 
															                 else:
														
 
															-                    yield feapder.Request(url=item.get("parse_url"), item=item,files_info=item.get("files"),
														
 
															+                    yield feapder.Request(url=item.get("parse_url"), item=item, files_info=item.get("files"),
														
 
															                                           deal_detail=item.get("deal_detail"), timeout=timeout,
														
 
															-                                          callback=eval(item.get("parse")), proxies=False,**request_params)
														
 
															+                                          callback=eval(item.get("parse")), proxies=False, **request_params)
														
 
															             break
														
@@ -56,9 +53,9 @@ class Details(feapder.BiddingDetailSpider):
 
															             if html is not None:
														
 
															                 break
														
 
															-        if request.to_dict.get('rm_list',None) and html:
														
 
															+        if request.to_dict.get('rm_list', None) and html:
														
 
															             rm_list = request.rm_list
														
 
															-            html = remove_htmldata(rm_list,html,response)
														
 
															+            html = remove_htmldata(rm_list, html, response)
														
 
															         list_item.contenthtml = html
														
@@ -77,7 +74,7 @@ class Details(feapder.BiddingDetailSpider):
 
															                         if files_info.get("host"):
														
 
															                             file_url = urljoin(files_info.get("host"), file_url)
														
 
															                         if not files_info.get("file_type"):
														
 
															-                            file_type = extract_file_type(file_name,file_url)
														
 
															+                            file_type = extract_file_type(file_name, file_url)
														
 
															                         else:
														
 
															                             file_type = files_info.get("file_type")
														
@@ -89,7 +86,7 @@ class Details(feapder.BiddingDetailSpider):
 
															                         if file_type in files_info.get("files_type") and files_info.get("url_key") in file_url:
														
 
															                             attachment = AttachmentDownloader().fetch_attachment(
														
 
															                                 file_name=file_name, file_type=file_type, download_url=file_url,
														
 
															-                                enable_proxy=False,proxies=fpx)
														
 
															+                                enable_proxy=False, proxies=fpx)
														
 
															                             attachments[str(len(attachments) + 1)] = attachment
														
 
															                 if attachments:
														
 
															                     list_item.projectinfo = {"attachments": attachments}
														
@@ -113,6 +110,5 @@ class Details(feapder.BiddingDetailSpider):
 
															         yield list_item
														
 
															-
														
 
															 if __name__ == "__main__":
														
 
															     Details(redis_key="detail:normal_details").start()
														
--- a/FworkSpider/feapder/templates/njpc_detail_template.tmpl
+++ b/FworkSpider/feapder/templates/njpc_detail_template.tmpl
@@ -6,26 +6,22 @@ Created on {DATE}
 
															 ---------
														
 
															 @author: njpc_feapder
														
 
															 """
														
 
															-import sys
														
 
															-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 import feapder
														
 
															 import re
														
 
															 import json
														
 
															-import time,random
														
 
															+import time, random
														
 
															 from items.njpc_item import DataNjpcItem
														
 
															 from untils.attachment import AttachmentDownloader as AD
														
 
															 from untils.attachment_res import AttachmentDownloader as ADres
														
 
															 from lxml.html import fromstring
														
 
															-from untils.tools import remove_htmldata,extract_file_type
														
 
															+from untils.tools import remove_htmldata, extract_file_type
														
 
															 from feapder.utils.log import log
														
 
															-
														
 
															 redis_key = "njpc_details"
														
 
															 # 拟建爬虫下载附件
														
 
															-def njpc_get_files(html,file_type="",s_key="http",proxies=False):
														
 
															-
														
 
															+def njpc_get_files(html, file_type="", s_key="http", proxies=False):
														
 
															     def parse_filetype(response, filetypes):
														
 
															         val = response.headers.get("content-disposition")
														
 
															         filetype = val.split('.')[-1].replace('"', '').replace("'", "")
														
@@ -54,7 +50,7 @@ def njpc_get_files(html,file_type="",s_key="http",proxies=False):
 
															                 if file_type.lower() in file_types:
														
 
															                     file_tp = file_type
														
 
															                 else:
														
 
															-                    file_tp = extract_file_type(file_name,file_url,[file_type])
														
 
															+                    file_tp = extract_file_type(file_name, file_url, [file_type])
														
 
															                 if file_tp and s_key in file_url and file_name:
														
 
															                     file_name = file_name.strip()
														
@@ -70,26 +66,27 @@ class Details(feapder.PlanToBuildDetailSpider):
 
															     def start_requests(self):
														
 
															         data_lsit = self.get_tasks_by_rabbitmq(limit=100)
														
 
															         for item in data_lsit:
														
 
															-            log.debug(item)
														
 
															+            # log.debug(item)
														
 
															             request_params = item.get("request_params")
														
 
															-            timeout = request_params.pop('timeout',10)
														
 
															-            is_join_html = item.get("is_join_html")      # 正文是否根据xpath拼接
														
 
															-            extra_html = item.get("extra_html")          # 过滤无效内容
														
 
															-            title_xpath = item.get("title_xpath")        # 三级页标题
														
 
															+            timeout = request_params.get('timeout', 10)
														
 
															+            request_params.pop('timeout', None)
														
 
															+            is_join_html = item.get("is_join_html")  # 正文是否根据xpath拼接
														
 
															+            extra_html = item.get("extra_html")  # 过滤无效内容
														
 
															+            title_xpath = item.get("title_xpath")  # 三级页标题
														
 
															             extra_activity = item.get("extra_activity")  # 额外的需求动作
														
 
															-            file_params = item.get("file_params")        # 附件下载配置
														
 
															+            file_params = item.get("file_params")  # 附件下载配置
														
 
															             if item.get("proxies"):
														
 
															                 yield feapder.Request(url=item.get("parser_url"), item=item, deal_detail=item.get("deal_detail"),
														
 
															-                                      is_join_html=is_join_html, extra_html=extra_html,title_xpath=title_xpath,
														
 
															+                                      is_join_html=is_join_html, extra_html=extra_html, title_xpath=title_xpath,
														
 
															                                       callback=item.get("parser"), file_params=file_params,
														
 
															                                       extra_activity=extra_activity, timeout=timeout, **request_params)
														
 
															             else:
														
 
															-                yield feapder.Request(url=item.get("parser_url"), item=item,deal_detail=item.get("deal_detail"),
														
 
															-                                      is_join_html=is_join_html, extra_html=extra_html,title_xpath=title_xpath,
														
 
															+                yield feapder.Request(url=item.get("parser_url"), item=item, deal_detail=item.get("deal_detail"),
														
 
															+                                      is_join_html=is_join_html, extra_html=extra_html, title_xpath=title_xpath,
														
 
															                                       callback=item.get("parser"), file_params=file_params,
														
 
															                                       extra_activity=extra_activity, proxies=False, timeout=timeout, **request_params)
														
 
															-    def detail_get(self,request,response):
														
 
															+    def detail_get(self, request, response):
														
 
															         items = request.item
														
 
															         data_item = DataNjpcItem(**items)
														
@@ -106,7 +103,7 @@ class Details(feapder.PlanToBuildDetailSpider):
 
															         if request.title_xpath:
														
 
															             for sxpath in request.title_xpath:
														
 
															-                title = response.xpath(sxpath).extract_first() # 三级页标题
														
 
															+                title = response.xpath(sxpath).extract_first()  # 三级页标题
														
 
															                 if title:
														
 
															                     data_item.title = title.strip()
														
 
															                     if "..." in data_item.projectname or "…" in data_item.projectname:
														
@@ -115,12 +112,12 @@ class Details(feapder.PlanToBuildDetailSpider):
 
															         try:
														
 
															             if request.extra_activity:
														
 
															-                from untils.tools import njpc_fields_extract,njpc_fields_extract_special
														
 
															+                from untils.tools import njpc_fields_extract, njpc_fields_extract_special
														
 
															                 exec(request.extra_activity)
														
 
															         except:
														
 
															             pass
														
 
															-        data_item.contenthtml = remove_htmldata(request.extra_html,html,response)
														
 
															+        data_item.contenthtml = remove_htmldata(request.extra_html, html, response)
														
 
															         fp = request.file_params or {}
														
 
															         attachments = njpc_get_files(
														
@@ -134,8 +131,7 @@ class Details(feapder.PlanToBuildDetailSpider):
 
															         yield data_item
														
 
															-
														
 
															-    def detail_json(self,request,response):
														
 
															+    def detail_json(self, request, response):
														
 
															         items = request.item
														
 
															         data_item = DataNjpcItem(**items)
														
@@ -146,4 +142,3 @@ class Details(feapder.PlanToBuildDetailSpider):
 
															 if __name__ == '__main__':
														
 
															     Details(redis_key="detail:njpc_details").start()
														
 
															-
														
--- a/FworkSpider/feapder/templates/njpc_list_template.tmpl
+++ b/FworkSpider/feapder/templates/njpc_list_template.tmpl
@@ -6,34 +6,32 @@ Created on {DATE}
 
															 ---------
														
 
															 @author: {USER}
														
 
															 """
														
 
															-import sys
														
 
															-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 import feapder
														
 
															 from items.njpc_item import NjpcListItem
														
 
															 from collections import namedtuple
														
 
															-import time,random
														
 
															+import time, random
														
 
															 class Njpc_Feapder(feapder.PlanToBuildListSpider):
														
 
															     def start_callback(self):
														
 
															-         self.site = ""
														
 
															+        self.site = ""
														
 
															-         #               --- --- crawl_page 必须存在，且为纯数字(int) --- ---
														
 
															-         Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
														
 
															+        #               --- --- crawl_page 必须存在，且为纯数字(int) --- ---
														
 
															+        Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
														
 
															-         self.menus = [
														
 
															-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															-         ]
														
 
															+        self.menus = [
														
 
															+            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															+            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															+        ]
														
 
															-         self.headers = {}
														
 
															+        self.headers = {}
														
 
															     def start_requests(self):
														
 
															-         start_url = ''
														
 
															-         for menu in self.menus:
														
 
															-             yield feapder.Request(url=start_url,item=menu._asdict(),page=1,proxies=False)
														
 
															+        start_url = ''
														
 
															+        for menu in self.menus:
														
 
															+            yield feapder.Request(url=start_url, item=menu._asdict(), page=1, proxies=False)
														
 
															     def download_midware(self, request):
														
 
															         page = request.page
														
@@ -41,31 +39,31 @@ class Njpc_Feapder(feapder.PlanToBuildListSpider):
 
															     def parse(self, request, response):
														
 
															         menu = request.item
														
 
															-        info_list = response.xpath('')       # 数据结构为html
														
 
															+        info_list = response.xpath('')  # 数据结构为html
														
 
															         for info in info_list:
														
 
															             detail_href = info.xpath('').extract_first().strip()
														
 
															             projectname = info.xpath('').extract_first().strip()
														
 
															             publish_time = info.xpath('').extract_first().strip()
														
 
															-            area = ""      # 省份
														
 
															-            city = ""      # 城市
														
 
															+            area = ""  # 省份
														
 
															+            city = ""  # 城市
														
 
															             district = ""  # 区县
														
 
															-            data_item = NjpcListItem()  # 存储数据的管道
														
 
															-            data_item.unique_key = ("href", "publishtime") # 去重
														
 
															-            data_item.channel = menu.get("channel")    # 最上方定义的抓取栏目 （编辑器定的）
														
 
															-            data_item.spidercode = menu.get("code")    # 最上方定义的爬虫code（编辑器定的）
														
 
															-            data_item.projectname = projectname        # 项目名称
														
 
															-            data_item.publishtime = publish_time       # 发布时间
														
 
															+            data_item = NjpcListItem()          # 存储数据的管道
														
 
															+            data_item.unique_key = ("href", publish_time)  # 去重
														
 
															+            data_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
														
 
															+            data_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
														
 
															+            data_item.projectname = projectname      # 项目名称
														
 
															+            data_item.publishtime = publish_time     # 发布时间
														
 
															             data_item.site = self.site
														
 
															-            data_item.area = area or "全国"             # 城市默认:全国
														
 
															-            data_item.city = city                      # 城市 默认为空
														
 
															-            data_item.district = district              # 城市 默认为空
														
 
															-            data_item.parser_url = detail_href         # 详情页数据链接
														
 
															-            data_item.href = detail_href               # 详情链接
														
 
															-            data_item.request_params = {"headers":self.headers}
														
 
															-            data_item.parser = "detail_get"            # 快照页爬虫调用的方法
														
 
															+            data_item.area = area or "全国"                   # 城市默认:全国
														
 
															+            data_item.city = city                            # 城市 默认为空
														
 
															+            data_item.district = district                    # 城市 默认为空
														
 
															+            data_item.parser_url = detail_href               # 详情页数据链接
														
 
															+            data_item.href = detail_href                     # 详情链接
														
 
															+            data_item.request_params = {"headers": self.headers}
														
 
															+            data_item.parser = "detail_get"                  # 快照页爬虫调用的方法
														
 
															             data_item.deal_detail = ['//div[@class="***"]']  # 正文解析规则
														
 
															             # data_item.proxies = True               # 快照页是否开启代理
														
@@ -81,10 +79,10 @@ class Njpc_Feapder(feapder.PlanToBuildListSpider):
 
															             yield data_item
														
 
															         # 翻页
														
 
															-        time.sleep(random.randint(2,5))
														
 
															-        request = self.infinite_pages(request,response)
														
 
															+        time.sleep(random.randint(2, 5))
														
 
															+        request = self.infinite_pages(request, response)
														
 
															         yield request
														
 
															 if __name__ == "__main__":
														
 
															-    Njpc_Feapder(redis_key="detail:njpc_details).start()
														
 
															+    Njpc_Feapder(redis_key="detail:njpc_details").start()
														
--- a/FworkSpider/feapder/templates/spider_list_template.tmpl
+++ b/FworkSpider/feapder/templates/spider_list_template.tmpl
@@ -6,14 +6,11 @@ Created on {DATE}
 
															 ---------
														
 
															 @author: {USER}
														
 
															 """
														
 
															-import sys
														
 
															-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 import feapder
														
 
															-from items.spider_item import MgpListItem
														
 
															+from items.spider_item import BidingListItem
														
 
															 from collections import namedtuple
														
 
															-
														
 
															 class ${spider_name}(feapder.BiddingListSpider):
														
 
															     def start_callback(self):
														
@@ -24,8 +21,8 @@ class ${spider_name}(feapder.BiddingListSpider):
 
															         Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
														
 
															         self.menus = [
														
 
															-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															+            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															+            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
														
 
															         ]
														
 
															         self.headers = {}
														
@@ -33,7 +30,7 @@ class ${spider_name}(feapder.BiddingListSpider):
 
															     def start_requests(self):
														
 
															         for menu in self.menus:
														
 
															             start_url = ''
														
 
															-            yield feapder.Request(url=start_url,item=menu._asdict(),page=1,proxies=False)
														
 
															+            yield feapder.Request(url=start_url, item=menu._asdict(), page=1, proxies=False)
														
 
															     def download_midware(self, request):
														
 
															         page = request.page
														
@@ -42,48 +39,48 @@ class ${spider_name}(feapder.BiddingListSpider):
 
															     def parse(self, request, response):
														
 
															         menu = request.item
														
 
															-        info_list = response.xpath('')       # 数据结构为html
														
 
															+        info_list = response.xpath('')  # 数据结构为html
														
 
															         for info in info_list:
														
 
															             href = info.xpath('').extract_first().strip()
														
 
															             title = info.xpath('').extract_first().strip()
														
 
															             publish_time = info.xpath('').extract_first().strip()
														
 
															-            area = ""      # 省份
														
 
															-            city = ""      # 城市
														
 
															+            area = ""  # 省份
														
 
															+            city = ""  # 城市
														
 
															             district = ""  # 区县
														
 
															-            list_item = MgpListItem()                # 存储数据的管道
														
 
															-            list_item.href = href                    # 标书链接
														
 
															+            list_item = BidingListItem()     # 存储数据的管道
														
 
															+            list_item.href = href            # 标书链接
														
 
															             list_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
														
 
															             list_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
														
 
															             list_item.title = title                  # 标题
														
 
															             list_item.publishtime = publish_time     # 标书发布时间
														
 
															             list_item.site = self.site
														
 
															-            list_item.area = area or "全国"           # 省份 默认:全国
														
 
															-            list_item.city = city                    # 城市 默认 为空
														
 
															-            list_item.district = district            # 区县 默认 为空
														
 
															+            list_item.area = area or "全国"  # 省份 默认:全国
														
 
															+            list_item.city = city           # 城市 默认 为空
														
 
															+            list_item.district = district   # 区县 默认 为空
														
 
															             list_item.unique_key = ('href',)
														
 
															-            list_item.parse = "self.detail_get"      # 详情页回调方法
														
 
															-            list_item.deal_detail = ['//div[@class="****"]']   # 抽取正文xpath
														
 
															+            list_item.parse = "self.detail_get"        # 详情页回调方法
														
 
															+            list_item.deal_detail = ['//div[@class="****"]']  # 抽取正文xpath
														
 
															             list_item.proxies = False
														
 
															-            list_item.parse_url = href               # 详情页请求地址
														
 
															+            list_item.parse_url = href                 # 详情页请求地址
														
 
															             # list_item.is_delay = 1                   # 延时推送标识
														
 
															             # list_item.if_es = 1                      # 查询es标识
														
 
															-            list_item.files={                        # 附件采集规则
														
 
															-                "list_xpath":'//div[@class="***"]//a[@href]',
														
 
															-                "url_xpath":'./@href',
														
 
															-                "name_xpath":'./text()',
														
 
															-                #"file_type":'pdf',                  # 默认的附件类型，用于url中未带附件类型的
														
 
															-                "url_key":'http',                    # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
														
 
															-                "host":'',                           # 需要拼接url的host
														
 
															+            list_item.files = {                       # 附件采集规则
														
 
															+                "list_xpath": '//div[@class="***"]//a[@href]',
														
 
															+                "url_xpath": './@href',
														
 
															+                "name_xpath": './text()',
														
 
															+                # "file_type":'pdf',                  # 默认的附件类型，用于url中未带附件类型的
														
 
															+                "url_key": 'http',    # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
														
 
															+                "host": '',           # 需要拼接url的host
														
 
															             }
														
 
															             yield list_item
														
 
															         # 翻页
														
 
															-        request = self.infinite_pages(request,response)
														
 
															+        request = self.infinite_pages(request, response)
														
 
															         yield request
														
--- a/FworkSpider/feapder/templates/spider_template.tmpl
+++ b/FworkSpider/feapder/templates/spider_template.tmpl
@@ -6,8 +6,6 @@ Created on {DATE}
 
															 ---------
														
 
															 @author: {USER}
														
 
															 """
														
 
															-import sys
														
 
															-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
														
 
															 import feapder
														
 
															 from items.spider_item import DataBakItem
														
 
															 from feapder.network.selector import Selector
														
@@ -15,27 +13,26 @@ from collections import namedtuple
 
															 import time
														
 
															-
														
 
															 class ${spider_name}(feapder.BiddingListSpider):
														
 
															     def start_callback(self):
														
 
															-         self.site = ""
														
 
															+        self.site = ""
														
 
															-         #   --- --- crawl_page 必须存在，且为纯数字(int) --- ---
														
 
															-         Menu = namedtuple('Menu', ['channel', 'code', 'crawl_page'])
														
 
															+        #   --- --- crawl_page 必须存在，且为纯数字(int) --- ---
														
 
															+        Menu = namedtuple('Menu', ['channel', 'code', 'crawl_page'])
														
 
															-         self.menus = [
														
 
															-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', 1),
														
 
															-         ]
														
 
															+        self.menus = [
														
 
															+            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', 1),
														
 
															+        ]
														
 
															-         self.headers = {}
														
 
															+        self.headers = {}
														
 
															     def start_requests(self):
														
 
															-         for menu in self.menus:
														
 
															-             start_url = ''
														
 
															-             yield feapder.Request(url=start_url, item=menu._asdict(), page=1,
														
 
															-                                   render=True, render_time=3, proxies=False)
														
 
															+        for menu in self.menus:
														
 
															+            start_url = ''
														
 
															+            yield feapder.Request(url=start_url, item=menu._asdict(), page=1,
														
 
															+                                  render=True, render_time=3, proxies=False)
														
 
															     def download_midware(self, request):
														
 
															         page = request.page
														
@@ -50,19 +47,19 @@ class ${spider_name}(feapder.BiddingListSpider):
 
															             title = info.xpath('').extract_first().strip()
														
 
															             publish_time = info.xpath('').extract_first().strip()
														
 
															-            area = ""      # 省份
														
 
															-            city = ""      # 城市
														
 
															+            area = ""  # 省份
														
 
															+            city = ""  # 城市
														
 
															             district = ""  # 区县
														
 
															             try:
														
 
															-                next_page = driver.find_elements_by_xpath(f'//a[contains(text(),"{title}")]')[0]
														
 
															+                next_page = driver.find_element_by_xpath(f'//a[contains(text(),"{title}")]')
														
 
															             except:
														
 
															                 try:
														
 
															-                    next_page = driver.find_elements_by_xpath(f'//a[contains(text(),"{title[:10]}")]')[0] # 标题过长
														
 
															+                    next_page = driver.find_element_by_xpath(f'//a[contains(text(),"{title[:10]}")]')  # 标题过长
														
 
															                 except:
														
 
															                     continue
														
 
															-            driver.execute_script("arguments[0].click();",next_page) # js点击
														
 
															+            driver.execute_script("arguments[0].click();", next_page)  # js点击
														
 
															             time.sleep(3)
														
 
															             # 点击三级页标题后打开新窗口
														
@@ -71,21 +68,21 @@ class ${spider_name}(feapder.BiddingListSpider):
 
															             href = driver.current_url
														
 
															-            data_item = DataBakItem()                # 存储数据的管道
														
 
															-            data_item.href = href                    # 标书链接
														
 
															-            data_item.unique_key = ('title','href')  # 去重
														
 
															-            data_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
														
 
															-            data_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
														
 
															-            data_item.title = title                  # 标题
														
 
															-            data_item.publishtime = publish_time     # 标书发布时间
														
 
															+            data_item = DataBakItem()         # 存储数据的管道
														
 
															+            data_item.href = href             # 标书链接
														
 
															+            data_item.unique_key = ('title', 'href')  # 去重
														
 
															+            data_item.channel = menu.get("channel")   # 最上方定义的抓取栏目 （编辑器定的）
														
 
															+            data_item.spidercode = menu.get("code")   # 最上方定义的爬虫code（编辑器定的）
														
 
															+            data_item.title = title                   # 标题
														
 
															+            data_item.publishtime = publish_time      # 标书发布时间
														
 
															             data_item.site = self.site
														
 
															-            data_item.area = area or "全国"           # 省份 默认:全国
														
 
															-            data_item.city = city                    # 城市 默认 为空
														
 
															-            data_item.district = district            # 区县 默认 为空
														
 
															+            data_item.area = area or "全国"  # 省份 默认:全国
														
 
															+            data_item.city = city           # 城市 默认 为空
														
 
															+            data_item.district = district   # 区县 默认 为空
														
 
															             detail_html = Selector(text=driver.page_source)
														
 
															             html = ""
														
 
															-            dx_list = ['//div[@class="***"]',]
														
 
															+            dx_list = ['//div[@class="***"]', ]
														
 
															             for dx in dx_list:
														
 
															                 html = detail_html.xpath(dx).extract_first()
														
 
															                 if html:
														
@@ -103,7 +100,7 @@ class ${spider_name}(feapder.BiddingListSpider):
 
															             yield data_item
														
 
															         # 翻页
														
 
															-        request = self.infinite_pages(request,response)
														
 
															+        request = self.infinite_pages(request, response)
														
 
															         yield request
														
--- a/FworkSpider/items/njpc_item.py
+++ b/FworkSpider/items/njpc_item.py
@@ -1,5 +1,4 @@
 
															 # -*- coding: utf-8 -*-
														
 
															-
														
 
															 import feapder.utils.tools as tools
														
 
															 from feapder import BaseListItem, BaseDetailItem
														
 
															 from feapder.utils.log import log
														
@@ -25,9 +24,71 @@ class DataNjpcItem(BaseDetailItem):
 
															         'total', 'freshair', 'air', 'projectperiod', 'elevator',
														
 
															         'funds', 'pace', 'owner', 'projectaddr', 'system', 'exterior',
														
 
															         'method', 'passive', 'conditioner', 'approvedept', 'project',
														
 
															-        'prefabricated'
														
 
															+        'prefabricated', 'approvetime', 'total_investment', 'project_startdate',
														
 
															+        'project_completedate', 'project_person', 'project_phone', 'project_scale_info',
														
 
															+        'project_scale', 'construction_area', 'floor_area', 'building_floors', 'steel_structure',
														
 
															+        'exterior_wall_materials', 'parking_pace', 'air_conditioner', 'freshair_system', 'heating_method',
														
 
															+        'prefabricated_building', 'passive_house', 'other_project_scale', 'owner_info', 'designunit_info',
														
 
															+        'constructionunit_info',
														
 
															     }
														
 
															+    # 以下字段为 二类字段，没有则不做存储，不在存储结构中
														
 
															+    # 附件，默认为Null 正确的格式为 projectinfo.attachments = [{
														
 
															+    #                       "fid":"附件id"
														
 
															+    #                       "filename":"附件名称"
														
 
															+    #                       "ftype":"文件类型"
														
 
															+    #                       "org_url":"附件原始地址"
														
 
															+    #                       "size":"附件大小"
														
 
															+    #                       "url":"附件地址"}]
														
 
															+    # 事项名称（审批事项）	approvecontent
														
 
															+    # 项目代码(审批代码)	approvecode
														
 
															+    # 批准文号	approvenumber
														
 
															+    # 总投资	total_investment
														
 
															+    # 资金来源	funds
														
 
															+    # 业主单位	owner
														
 
															+    # 申报方式（项目类型）	projecttype
														
 
															+    # 建设地点	projectaddr
														
 
															+    # 建设年限	projectperiod
														
 
															+    # 开工时间	project_startdate
														
 
															+    # 竣工时间	project_completedate
														
 
															+    # 审批部门	approvedept
														
 
															+    # 审批结果	approvestatus
														
 
															+    # 项目联系人  project_person
														
 
															+    # 项目联系电话  project_phone
														
 
															+
														
 
															+    # 建设规模及主要内容	project_scale_info
														
 
															+    # 	project_scale
														
 
															+    # 建筑面积	construction_area
														
 
															+    # 占地面积	floor_area
														
 
															+    # 建筑层数	building_floors
														
 
															+    # 钢结构	steel_structure
														
 
															+    # 外墙材料	exterior_wall_materials
														
 
															+    # 车库停车位	parking_pace
														
 
															+    # 电梯	elevator
														
 
															+    # 空调	air_conditioner
														
 
															+    # 新风系统	freshair_system
														
 
															+    # 供暖方式	heating_method
														
 
															+    # 装配式建筑	prefabricated_building
														
 
															+    # 被动房	passive_house
														
 
															+    # 其它建设内容描述	other_project_scale
														
 
															+
														
 
															+    # 三类字段，难以处理时可以不处理
														
 
															+    # 业主及其联系方式	owner_info
														
 
															+    # 业主单位/建设单位	owner
														
 
															+    # 业主单位联系人	ownerperson
														
 
															+    # 业主单位联系方式	ownertel
														
 
															+    # 业主单位地址	owneraddr
														
 
															+    # 设计院及其联系方式	designunit_info
														
 
															+    # 设计单位	designunit
														
 
															+    # 设计单位联系人	designunitperson
														
 
															+    # 设计单位联系方式	designunittel
														
 
															+    # 设计单位地址	designunitaddr
														
 
															+    # 施工单位及其联系方式	constructionunit_info
														
 
															+    # 施工单位	constructionunit
														
 
															+    # 施工单位联系人	constructionunitperson
														
 
															+    # 施工单位联系方式	constructionunittel
														
 
															+    # 施工单位地址	constructionunitaddr
														
 
															+
														
 
															     def __init__(self, projectname='', publishtime='', **kwargs):
														
 
															         """
														
@@ -45,6 +106,7 @@ class DataNjpcItem(BaseDetailItem):
 
															         # 默认设置
														
 
															         self.T = "bidding"
														
 
															         self.infoformat = 2
														
 
															+        self.is_check_text = True
														
 
															     def handle_publish_time(self):
														
 
															         # 时间格式处理
														
@@ -82,7 +144,7 @@ class DataNjpcItem(BaseDetailItem):
 
															             if not self.detail:
														
 
															                 self.detail = substitute(self.contenthtml)
														
 
															-            if text_search(self.detail).total == 0:
														
 
															+            if self.is_check_text and text_search(self.detail).total == 0:
														
 
															                 self.sendflag = "true"
														
 
															     def check_data_validity(self):
														
@@ -92,6 +154,9 @@ class DataNjpcItem(BaseDetailItem):
 
															                 self.dont_save = True
														
 
															     def cleanup(self):
														
 
															+        # 删除检测正文是否包含中文字段
														
 
															+        del self.is_check_text
														
 
															+
														
 
															         if not self.projectinfo:
														
 
															             del self.projectinfo
														
@@ -118,10 +183,14 @@ class NjpcListItem(BaseListItem):
 
															         self.projectname = ""  # 项目名称
														
 
															         self.publishtime = ""  # 文章发布时间
														
 
															+        self.is_check_spider = True
														
 
															     def pre_to_db(self):
														
 
															-        if CheckData.channel(self.channel, self.site, group="njpc"):
														
 
															+        if self.is_check_spider and CheckData.channel(self.channel, self.site, group="njpc"):
														
 
															             code, reason = CheckData.title(self.projectname, group="njpc")
														
 
															             if code == 10106:
														
 
															                 log.warning(f"{self.projectname}--不可入库，原因:{reason}")
														
 
															                 self.dont_save = True
														
 
															+
														
 
															+        # 删除 是否检测 该爬虫的标题符合规范
														
 
															+        del self.is_check_spider
														
--- a/FworkSpider/items/spider_item.py
+++ b/FworkSpider/items/spider_item.py
@@ -16,7 +16,7 @@ class DataBakItem(BaseDetailItem):
 
															     __attr__ = {
														
 
															         'pyuuid', 'save', 'site', 'channel', 'spidercode', 'area',
														
 
															         'city', 'district', 'href', 'title', 'contenthtml', 'detail',
														
 
															-        'sendflag', 'projectinfo'
														
 
															+        'sendflag', 'projectinfo', 'infoformat'
														
 
															     }
														
 
															     def __init__(self, s_title='', publishtime='', **kwargs):
														
@@ -35,15 +35,19 @@ class DataBakItem(BaseDetailItem):
 
															         self.competehref = None  # 竞品详情页地址
														
 
															         self.T = "bidding"
														
 
															-        self.infoformat = 1
														
 
															+        self.infoformat = kwargs.get('infoformat', 1)
														
 
															         '''招投标默认属性'''
														
 
															         self.iscompete = True  # 新爬虫标识
														
 
															         self._d = "comeintime"
														
 
															         self.publishdept = ""
														
 
															         self.type = ""
														
 
															+        self.is_check_text = True
														
 
															     def cleanup(self):
														
 
															+        # 删除检测正文是否包含中文字段
														
 
															+        del self.is_check_text
														
 
															+
														
 
															         # 竞品网站-详情页地址标识字段
														
 
															         if not self.competehref:
														
 
															             del self.competehref
														
@@ -77,8 +81,8 @@ class DataBakItem(BaseDetailItem):
 
															             if not self.detail:
														
 
															                 self.detail = substitute(self.contenthtml)
														
 
															-            if text_search(self.detail).total == 0:
														
 
															-                self.sendflag = "true"   # 无内容数据，数据不入保存服务
														
 
															+            if self.is_check_text and text_search(self.detail).total == 0:
														
 
															+                self.sendflag = "true"  # 无内容数据，数据不入保存服务
														
 
															     def check_data_validity(self):
														
 
															         if not self.dont_save:
														
@@ -133,20 +137,24 @@ class BidingListItem(BaseListItem):
 
															         self.parser_name = ""  # 详情爬虫从MongoDB拉取任务的唯一标识(建议使用 spidercode 命名)
														
 
															         self.parse = ""  # 详情爬虫解析回调方法名
														
 
															-        self.proxies = False  # 是否启用代理, 多用于通用详情采集，关闭代理=False；开启代理=True
														
 
															+        self.proxies = False  # 代理
														
 
															         self.deal_detail = []  # 定义解析详情页主页内容的xpath列表
														
 
															         self.ex_js = ""  # 定义需要执行的js代码,包括但不限于script、文件路径等
														
 
															         self.ex_python = None  # 定义需要执行的python代码，生成params/date，如headers和cookies特殊，最好使用特殊定义法
														
 
															         self.files = False  # 采集附件配置
														
 
															+        self.is_check_spider = True
														
 
															     def pre_to_db(self):
														
 
															-        if CheckData.channel(self.channel, self.site):
														
 
															+        if self.is_check_spider and CheckData.channel(self.channel, self.site):
														
 
															             code, reason = CheckData.title(self.title)
														
 
															             if code == 10106:
														
 
															                 log.warning(f"{self.title}--不可入库，原因:{reason}")
														
 
															                 self.dont_save = True
														
 
															+        # 删除 是否检测 该爬虫的标题符合规范
														
 
															+        del self.is_check_spider
														
 
															+
														
 
															 MgpListItem = BidingListItem