2 months ago · 7d419ad11a
--- a/FworkSpider/feapder/templates/air_spider_template.tmpl
+++ b/FworkSpider/feapder/templates/air_spider_template.tmpl
@@ -1,22 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary:
			
 
				----------
			
 
				-@author: {USER}
			
 
				-"""
			
 
				-
			
 
				-import feapder
			
 
				-
			
 
				-
			
 
				-class ${spider_name}(feapder.AirSpider):
			
 
				-    def start_requests(self):
			
 
				-        yield feapder.Request("https://www.baidu.com")
			
 
				-
			
 
				-    def parse(self, request, response):
			
 
				-        print(response)
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    ${spider_name}().start()
			
--- a/FworkSpider/feapder/templates/detail_template.tmpl
+++ b/FworkSpider/feapder/templates/detail_template.tmpl
@@ -1,121 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary:  ${spider_name}
			
 
				----------
			
 
				-@author: {USER}
			
 
				-"""
			
 
				-from urllib.parse import urljoin
			
 
				-import feapder
			
 
				-from items.spider_item import DataBakItem
			
 
				-from untils.attachment import AttachmentDownloader
			
 
				-from untils.tools import remove_htmldata, extract_file_type
			
 
				-from feapder.utils.log import log
			
 
				-import time
			
 
				-import json
			
 
				-import re
			
 
				-
			
 
				-
			
 
				-class Details(feapder.BiddingDetailSpider):
			
 
				-
			
 
				-    def start_requests(self):
			
 
				-        while True:
			
 
				-            data_lsit = self.get_tasks_by_rabbitmq(limit=20)
			
 
				-            for item in data_lsit:
			
 
				-                # log.debug(item)
			
 
				-                request_params = item.get("request_params")
			
 
				-                timeout = request_params.get('timeout', 10)
			
 
				-                request_params.pop('timeout', None)
			
 
				-                if item.get("js"):
			
 
				-                    eval(item.get("js"))
			
 
				-                if item.get("ex_python"):
			
 
				-                    exec(item.get("ex_python"))
			
 
				-                if item.get("proxies"):
			
 
				-                    yield feapder.Request(url=item.get("parse_url"), item=item, files_info=item.get("files"),
			
 
				-                                          deal_detail=item.get("deal_detail"), callback=eval(item.get("parse")),
			
 
				-                                          **request_params, timeout=timeout)
			
 
				-                else:
			
 
				-                    yield feapder.Request(url=item.get("parse_url"), item=item, files_info=item.get("files"),
			
 
				-                                          deal_detail=item.get("deal_detail"), timeout=timeout,
			
 
				-                                          callback=eval(item.get("parse")), proxies=False, **request_params)
			
 
				-
			
 
				-            break
			
 
				-
			
 
				-    def detail_get(self, request, response):
			
 
				-
			
 
				-        items = request.item
			
 
				-        list_item = DataBakItem(**items)
			
 
				-
			
 
				-        html = ''
			
 
				-        for xpath in request.deal_detail:
			
 
				-            html = response.xpath(xpath).extract_first()  # 标书详细内容
			
 
				-            if html is not None:
			
 
				-                break
			
 
				-
			
 
				-        if request.to_dict.get('rm_list', None) and html:
			
 
				-            rm_list = request.rm_list
			
 
				-            html = remove_htmldata(rm_list, html, response)
			
 
				-
			
 
				-        if request.to_dict.get('title_xpath', None):
			
 
				-            for sxpath in request.title_xpath:
			
 
				-                title = response.xpath(sxpath).extract_first("").strip() # 三级页标题
			
 
				-                if title:
			
 
				-                    list_item.title = title
			
 
				-                    break
			
 
				-
			
 
				-        list_item.contenthtml = html
			
 
				-
			
 
				-        if request.files_info:
			
 
				-            files_info = request.files_info
			
 
				-            files = response.xpath(files_info.get("list_xpath"))
			
 
				-            if len(files) > 0:
			
 
				-                attachments = {}
			
 
				-                for index, info in enumerate(files):
			
 
				-                    file_url = info.xpath(files_info.get("url_xpath")).extract_first()
			
 
				-                    file_name = info.xpath(files_info.get("name_xpath")).extract_first()
			
 
				-                    if not file_name:
			
 
				-                        file_name = info.xpath(files_info.get("name_xpath")).extract()
			
 
				-                    if file_name:
			
 
				-                        file_name = "".join("".join(file_name).split()).strip()
			
 
				-                        if files_info.get("host"):
			
 
				-                            file_url = urljoin(files_info.get("host"), file_url)
			
 
				-                        if not files_info.get("file_type"):
			
 
				-                            file_type = extract_file_type(file_name, file_url)
			
 
				-                        else:
			
 
				-                            file_type = files_info.get("file_type")
			
 
				-
			
 
				-                        if request.proxies:
			
 
				-                            fpx = request.proxies()
			
 
				-                        else:
			
 
				-                            fpx = False
			
 
				-
			
 
				-                        if file_type in files_info.get("files_type") and files_info.get("url_key") in file_url:
			
 
				-                            attachment = AttachmentDownloader().fetch_attachment(
			
 
				-                                file_name=file_name, file_type=file_type, download_url=file_url,
			
 
				-                                proxies=fpx, headers=request.to_dict.get('headers', None))
			
 
				-                            attachments[str(len(attachments) + 1)] = attachment
			
 
				-                if attachments:
			
 
				-                    list_item.projectinfo = {"attachments": attachments}
			
 
				-
			
 
				-        yield list_item
			
 
				-
			
 
				-    def detail_json(self, request, response):
			
 
				-        items = request.item
			
 
				-        list_item = DataBakItem(**items)
			
 
				-
			
 
				-        exec(request.deal_detail)
			
 
				-
			
 
				-        yield list_item
			
 
				-
			
 
				-    def detail_post(self, request, response):
			
 
				-        items = request.item
			
 
				-        list_item = DataBakItem(**items)
			
 
				-
			
 
				-        exec(request.deal_detail)
			
 
				-
			
 
				-        yield list_item
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    Details(redis_key="detail:normal_details").start()
			
--- a/FworkSpider/feapder/templates/item_template.tmpl
+++ b/FworkSpider/feapder/templates/item_template.tmpl
@@ -1,22 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary:
			
 
				----------
			
 
				-@author: {USER}
			
 
				-"""
			
 
				-
			
 
				-from feapder import Item
			
 
				-
			
 
				-
			
 
				-class ${item_name}Item(Item):
			
 
				-    """
			
 
				-    This class was generated by feapder.
			
 
				-    command: feapder create -i ${table_name}.
			
 
				-    """
			
 
				-
			
 
				-    __table_name__ = "${table_name}"
			
 
				-
			
 
				-    def __init__(self, *args, **kwargs):
			
 
				-        ${propertys}
			
--- a/FworkSpider/feapder/templates/njpc_detail_template.tmpl
+++ b/FworkSpider/feapder/templates/njpc_detail_template.tmpl
@@ -1,146 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary: 拟建爬虫通用快照页
			
 
				----------
			
 
				-@author: njpc_feapder
			
 
				-"""
			
 
				-import feapder
			
 
				-import re
			
 
				-import json
			
 
				-import time, random
			
 
				-from items.njpc_item import DataNjpcItem
			
 
				-from untils.attachment import AttachmentDownloader as AD
			
 
				-from untils.attachment_res import AttachmentDownloader as ADres
			
 
				-from lxml.html import fromstring
			
 
				-from untils.tools import remove_htmldata, extract_file_type
			
 
				-from feapder.utils.log import log
			
 
				-
			
 
				-redis_key = "njpc_details"
			
 
				-
			
 
				-
			
 
				-# 拟建爬虫下载附件
			
 
				-def njpc_get_files(html, headers, file_type="", s_key="http", proxies=False):
			
 
				-    def parse_filetype(response, filetypes):
			
 
				-        val = response.headers.get("content-disposition")
			
 
				-        filetype = val.split('.')[-1].replace('"', '').replace("'", "")
			
 
				-        filetypes.append(filetype)
			
 
				-
			
 
				-    root = fromstring(html)
			
 
				-    file_info = root.xpath('//a[@href]')
			
 
				-    if file_info:
			
 
				-        attachments = {}
			
 
				-        for info in file_info:
			
 
				-            file_url = "".join(info.xpath('./@href'))
			
 
				-            file_types = ['zip', 'docx', 'ftp', 'pdf', 'doc', 'rar', 'gzzb', 'hzzbs',
			
 
				-                          'jpg', 'png', 'zbid', 'xls', 'xlsx', 'swp', 'dwg']
			
 
				-            file_name = "".join(info.xpath('./@title') or info.xpath('.//text()'))
			
 
				-            if file_type.lower() == "res":
			
 
				-                if s_key in file_url and file_name:
			
 
				-                    file_name = file_name.strip()
			
 
				-                    attachment = ADres().fetch_attachment(
			
 
				-                        file_name=file_name,
			
 
				-                        download_url=file_url,
			
 
				-                        callback=parse_filetype,
			
 
				-                        proxies=proxies,
			
 
				-                        headers=headers,
			
 
				-                    )
			
 
				-                    attachments[str(len(attachments) + 1)] = attachment
			
 
				-            else:
			
 
				-                if file_type.lower() in file_types:
			
 
				-                    file_tp = file_type
			
 
				-                else:
			
 
				-                    file_tp = extract_file_type(file_name, file_url, [file_type])
			
 
				-
			
 
				-                if file_tp and s_key in file_url and file_name:
			
 
				-                    file_name = file_name.strip()
			
 
				-                    attachment = AD().fetch_attachment(
			
 
				-                        file_name=file_name, file_type=file_tp, download_url=file_url,
			
 
				-                        proxies=proxies, headers=headers,)
			
 
				-                    attachments[str(len(attachments) + 1)] = attachment
			
 
				-        return attachments
			
 
				-
			
 
				-
			
 
				-class Details(feapder.PlanToBuildDetailSpider):
			
 
				-
			
 
				-    def start_requests(self):
			
 
				-        data_lsit = self.get_tasks_by_rabbitmq(limit=100)
			
 
				-        for item in data_lsit:
			
 
				-            # log.debug(item)
			
 
				-            request_params = item.get("request_params")
			
 
				-            timeout = request_params.get('timeout', 10)
			
 
				-            request_params.pop('timeout', None)
			
 
				-            is_join_html = item.get("is_join_html")  # 正文是否根据xpath拼接
			
 
				-            extra_html = item.get("extra_html")  # 过滤无效内容
			
 
				-            title_xpath = item.get("title_xpath")  # 三级页标题
			
 
				-            extra_activity = item.get("extra_activity")  # 额外的需求动作
			
 
				-            file_params = item.get("file_params")  # 附件下载配置
			
 
				-            if item.get("proxies"):
			
 
				-                yield feapder.Request(url=item.get("parser_url"), item=item, deal_detail=item.get("deal_detail"),
			
 
				-                                      is_join_html=is_join_html, extra_html=extra_html, title_xpath=title_xpath,
			
 
				-                                      callback=item.get("parser"), file_params=file_params,
			
 
				-                                      extra_activity=extra_activity, timeout=timeout, **request_params)
			
 
				-            else:
			
 
				-                yield feapder.Request(url=item.get("parser_url"), item=item, deal_detail=item.get("deal_detail"),
			
 
				-                                      is_join_html=is_join_html, extra_html=extra_html, title_xpath=title_xpath,
			
 
				-                                      callback=item.get("parser"), file_params=file_params,
			
 
				-                                      extra_activity=extra_activity, proxies=False, timeout=timeout, **request_params)
			
 
				-
			
 
				-    def detail_get(self, request, response):
			
 
				-        items = request.item
			
 
				-        data_item = DataNjpcItem(**items)
			
 
				-
			
 
				-        html = ''
			
 
				-        for xpath in request.deal_detail:
			
 
				-            htmls = response.xpath(xpath).extract_first()  # 标书详细内容
			
 
				-            if request.is_join_html:
			
 
				-                if htmls is not None:
			
 
				-                    html += htmls
			
 
				-            else:
			
 
				-                if htmls is not None:
			
 
				-                    html = htmls
			
 
				-                    break
			
 
				-
			
 
				-        if request.title_xpath:
			
 
				-            for sxpath in request.title_xpath:
			
 
				-                title = response.xpath(sxpath).extract_first()  # 三级页标题
			
 
				-                if title:
			
 
				-                    data_item.title = title.strip()
			
 
				-                    if "..." in data_item.projectname or "…" in data_item.projectname:
			
 
				-                        data_item.projectname = title.strip()
			
 
				-                    break
			
 
				-
			
 
				-        try:
			
 
				-            if request.extra_activity:
			
 
				-                from untils.tools import njpc_fields_extract, njpc_fields_extract_special
			
 
				-                exec(request.extra_activity)
			
 
				-        except:
			
 
				-            pass
			
 
				-
			
 
				-        data_item.contenthtml = remove_htmldata(request.extra_html, html, response)
			
 
				-
			
 
				-        fp = request.file_params or {}
			
 
				-        attachments = njpc_get_files(
			
 
				-            html,
			
 
				-            file_type=fp.get("file_type", ""),
			
 
				-            s_key=fp.get("s_key", "http"),
			
 
				-            proxies=fp.get("proxies", False),
			
 
				-            headers=fp.get('headers', {}
			
 
				-        )
			
 
				-        if attachments:
			
 
				-            data_item.projectinfo = {"attachments": attachments}
			
 
				-
			
 
				-        yield data_item
			
 
				-
			
 
				-    def detail_json(self, request, response):
			
 
				-        items = request.item
			
 
				-        data_item = DataNjpcItem(**items)
			
 
				-
			
 
				-        exec(request.deal_detail)
			
 
				-
			
 
				-        yield data_item
			
 
				-
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    Details(redis_key="detail:njpc_details").start()
			
--- a/FworkSpider/feapder/templates/njpc_list_template.tmpl
+++ b/FworkSpider/feapder/templates/njpc_list_template.tmpl
@@ -1,88 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary: ${spider_name}
			
 
				----------
			
 
				-@author: {USER}
			
 
				-"""
			
 
				-import feapder
			
 
				-from items.njpc_item import NjpcListItem
			
 
				-from collections import namedtuple
			
 
				-import time, random
			
 
				-
			
 
				-
			
 
				-class Njpc_Feapder(feapder.PlanToBuildListSpider):
			
 
				-
			
 
				-    def start_callback(self):
			
 
				-
			
 
				-        self.site = ""
			
 
				-
			
 
				-        #               --- --- crawl_page 必须存在，且为纯数字(int) --- ---
			
 
				-        Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
			
 
				-
			
 
				-        self.menus = [
			
 
				-            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
			
 
				-            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
			
 
				-        ]
			
 
				-
			
 
				-        self.headers = {}
			
 
				-
			
 
				-    def start_requests(self):
			
 
				-        start_url = ''
			
 
				-        for menu in self.menus:
			
 
				-            yield feapder.Request(url=start_url, item=menu._asdict(), page=1, proxies=False)
			
 
				-
			
 
				-    def download_midware(self, request):
			
 
				-        page = request.page
			
 
				-        request.headers = self.headers
			
 
				-
			
 
				-    def parse(self, request, response):
			
 
				-        menu = request.item
			
 
				-        info_list = response.xpath('')  # 数据结构为html
			
 
				-        for info in info_list:
			
 
				-            detail_href = info.xpath('').extract_first().strip()
			
 
				-            projectname = info.xpath('').extract_first().strip()
			
 
				-            publish_time = info.xpath('').extract_first().strip()
			
 
				-
			
 
				-            area = ""  # 省份
			
 
				-            city = ""  # 城市
			
 
				-            district = ""  # 区县
			
 
				-
			
 
				-            data_item = NjpcListItem()          # 存储数据的管道
			
 
				-            data_item.unique_key = ("href", publish_time)  # 去重
			
 
				-            data_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
			
 
				-            data_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
			
 
				-            data_item.projectname = projectname      # 项目名称
			
 
				-            data_item.publishtime = publish_time     # 发布时间
			
 
				-
			
 
				-            data_item.site = self.site
			
 
				-            data_item.area = area or "全国"                   # 城市默认:全国
			
 
				-            data_item.city = city                            # 城市 默认为空
			
 
				-            data_item.district = district                    # 城市 默认为空
			
 
				-            data_item.parser_url = detail_href               # 详情页数据链接
			
 
				-            data_item.href = detail_href                     # 详情链接
			
 
				-            data_item.request_params = {"headers": self.headers}
			
 
				-            data_item.parser = "detail_get"                  # 快照页爬虫调用的方法
			
 
				-            data_item.deal_detail = ['//div[@class="***"]']  # 正文解析规则
			
 
				-
			
 
				-            # data_item.proxies = True               # 快照页是否开启代理
			
 
				-            # data_item.is_join_html = True          # 正文是否根据xpath拼接
			
 
				-            # data_item.extra_html = []              # 删除正文的无效数据（xpath列表 或 删除的内容）
			
 
				-            # data_item.title_xpath = []             # 三级页标题 xpath列表
			
 
				-            # data_item.file_params = {"file_type":"", "s_key":"http", "proxies":False}
			
 
				-                                                     # 附件下载配置
			
 
				-            # data_item.render = True                # 是否开启开启浏览器
			
 
				-            # data_item.render_time = 3              # 渲染时间
			
 
				-            # data_item.extra_activity = '''***'''   # 额外的需求动作(三引号内顶左边框写执行语句)
			
 
				-
			
 
				-            yield data_item
			
 
				-
			
 
				-        # 翻页
			
 
				-        time.sleep(random.randint(2, 5))
			
 
				-        request = self.infinite_pages(request, response)
			
 
				-        yield request
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    Njpc_Feapder(redis_key="detail:njpc_details").start()
			
--- a/FworkSpider/feapder/templates/spider_list_template.tmpl
+++ b/FworkSpider/feapder/templates/spider_list_template.tmpl
@@ -1,88 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary: ${spider_name}
			
 
				----------
			
 
				-@author: {USER}
			
 
				-"""
			
 
				-import feapder
			
 
				-from items.spider_item import BidingListItem
			
 
				-from collections import namedtuple
			
 
				-
			
 
				-
			
 
				-class ${spider_name}(feapder.BiddingListSpider):
			
 
				-
			
 
				-    def start_callback(self):
			
 
				-
			
 
				-        self.site = ""
			
 
				-
			
 
				-        #               --- --- crawl_page 必须存在，且为纯数字(int) --- ---
			
 
				-        Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
			
 
				-
			
 
				-        self.menus = [
			
 
				-            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
			
 
				-            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
			
 
				-        ]
			
 
				-
			
 
				-        self.headers = {}
			
 
				-
			
 
				-    def start_requests(self):
			
 
				-        for menu in self.menus:
			
 
				-            start_url = ''
			
 
				-            yield feapder.Request(url=start_url, item=menu._asdict(), page=1, proxies=False)
			
 
				-
			
 
				-    def download_midware(self, request):
			
 
				-        page = request.page
			
 
				-        request.headers = self.headers
			
 
				-
			
 
				-    def parse(self, request, response):
			
 
				-
			
 
				-        menu = request.item
			
 
				-        info_list = response.xpath('')  # 数据结构为html
			
 
				-        for info in info_list:
			
 
				-            href = info.xpath('').extract_first().strip()
			
 
				-            title = info.xpath('').extract_first().strip()
			
 
				-            publish_time = info.xpath('').extract_first().strip()
			
 
				-
			
 
				-            area = ""  # 省份
			
 
				-            city = ""  # 城市
			
 
				-            district = ""  # 区县
			
 
				-
			
 
				-            list_item = BidingListItem()     # 存储数据的管道
			
 
				-            list_item.href = href            # 标书链接
			
 
				-            list_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
			
 
				-            list_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
			
 
				-            list_item.title = title                  # 标题
			
 
				-            list_item.publishtime = publish_time     # 标书发布时间
			
 
				-            list_item.site = self.site
			
 
				-            list_item.area = area or "全国"  # 省份 默认:全国
			
 
				-            list_item.city = city           # 城市 默认 为空
			
 
				-            list_item.district = district   # 区县 默认 为空
			
 
				-
			
 
				-            list_item.unique_key = ('href',)
			
 
				-            list_item.parse = "self.detail_get"        # 详情页回调方法
			
 
				-            list_item.deal_detail = ['//div[@class="****"]']  # 抽取正文xpath
			
 
				-            list_item.proxies = False
			
 
				-            list_item.parse_url = href                 # 详情页请求地址
			
 
				-            # list_item.is_delay = 1                   # 延时推送标识
			
 
				-            # list_item.if_es = 1                      # 查询es标识
			
 
				-
			
 
				-            list_item.files = {                       # 附件采集规则
			
 
				-                "list_xpath": '//div[@class="***"]//a[@href]',
			
 
				-                "url_xpath": './@href',
			
 
				-                "name_xpath": './text()',
			
 
				-                # "file_type":'pdf',                  # 默认的附件类型，用于url中未带附件类型的
			
 
				-                "url_key": 'http',    # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
			
 
				-                "host": '',           # 需要拼接url的host
			
 
				-            }
			
 
				-
			
 
				-            yield list_item
			
 
				-
			
 
				-        # 翻页
			
 
				-        request = self.infinite_pages(request, response)
			
 
				-        yield request
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    ${spider_name}(redis_key="detail:normal_details").start()
			
--- a/FworkSpider/feapder/templates/spider_template.tmpl
+++ b/FworkSpider/feapder/templates/spider_template.tmpl
@@ -1,108 +0,0 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on {DATE}
			
 
				----------
			
 
				-@summary: selenium抓取列表页无法获取href的信息
			
 
				----------
			
 
				-@author: {USER}
			
 
				-"""
			
 
				-import feapder
			
 
				-from items.spider_item import DataBakItem
			
 
				-from feapder.network.selector import Selector
			
 
				-from collections import namedtuple
			
 
				-import time
			
 
				-
			
 
				-
			
 
				-class ${spider_name}(feapder.BiddingListSpider):
			
 
				-
			
 
				-    def start_callback(self):
			
 
				-
			
 
				-        self.site = ""
			
 
				-
			
 
				-        #   --- --- crawl_page 必须存在，且为纯数字(int) --- ---
			
 
				-        Menu = namedtuple('Menu', ['channel', 'code', 'crawl_page'])
			
 
				-
			
 
				-        self.menus = [
			
 
				-            Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', 1),
			
 
				-        ]
			
 
				-
			
 
				-        self.headers = {}
			
 
				-
			
 
				-    def start_requests(self):
			
 
				-        for menu in self.menus:
			
 
				-            start_url = ''
			
 
				-            yield feapder.Request(url=start_url, item=menu._asdict(), page=1,
			
 
				-                                  render=True, render_time=3, proxies=False)
			
 
				-
			
 
				-    def download_midware(self, request):
			
 
				-        page = request.page
			
 
				-        request.headers = self.headers
			
 
				-
			
 
				-    def parse(self, request, response):
			
 
				-        driver = response.browser
			
 
				-        menu = request.item
			
 
				-        info_list = response.xpath('')
			
 
				-        for info in info_list:
			
 
				-            # href = info.xpath('').extract_first().strip()
			
 
				-            title = info.xpath('').extract_first().strip()
			
 
				-            publish_time = info.xpath('').extract_first().strip()
			
 
				-
			
 
				-            area = ""  # 省份
			
 
				-            city = ""  # 城市
			
 
				-            district = ""  # 区县
			
 
				-
			
 
				-            try:
			
 
				-                next_page = driver.find_element_by_xpath(f'//a[contains(text(),"{title}")]')
			
 
				-            except:
			
 
				-                try:
			
 
				-                    next_page = driver.find_element_by_xpath(f'//a[contains(text(),"{title[:10]}")]')  # 标题过长
			
 
				-                except:
			
 
				-                    continue
			
 
				-
			
 
				-            driver.execute_script("arguments[0].click();", next_page)  # js点击
			
 
				-            time.sleep(3)
			
 
				-
			
 
				-            # 点击三级页标题后打开新窗口
			
 
				-            # handles = driver.window_handles
			
 
				-            # driver.switch_to.window(handles[-1])
			
 
				-
			
 
				-            href = driver.current_url
			
 
				-
			
 
				-            data_item = DataBakItem()         # 存储数据的管道
			
 
				-            data_item.href = href             # 标书链接
			
 
				-            data_item.unique_key = ('title', 'href')  # 去重
			
 
				-            data_item.channel = menu.get("channel")   # 最上方定义的抓取栏目 （编辑器定的）
			
 
				-            data_item.spidercode = menu.get("code")   # 最上方定义的爬虫code（编辑器定的）
			
 
				-            data_item.title = title                   # 标题
			
 
				-            data_item.publishtime = publish_time      # 标书发布时间
			
 
				-            data_item.site = self.site
			
 
				-            data_item.area = area or "全国"  # 省份 默认:全国
			
 
				-            data_item.city = city           # 城市 默认 为空
			
 
				-            data_item.district = district   # 区县 默认 为空
			
 
				-
			
 
				-            detail_html = Selector(text=driver.page_source)
			
 
				-            html = ""
			
 
				-            dx_list = ['//div[@class="***"]', ]
			
 
				-            for dx in dx_list:
			
 
				-                html = detail_html.xpath(dx).extract_first()
			
 
				-                if html:
			
 
				-                    break
			
 
				-
			
 
				-            data_item.contenthtml = html
			
 
				-
			
 
				-            # （不同窗口）切换回主窗口
			
 
				-            # driver.close()
			
 
				-            # driver.switch_to.window(handles[0])
			
 
				-
			
 
				-            driver.back()
			
 
				-            time.sleep(3)
			
 
				-
			
 
				-            yield data_item
			
 
				-
			
 
				-        # 翻页
			
 
				-        request = self.infinite_pages(request, response)
			
 
				-        yield request
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    ${spider_name}(redis_key="{USER}:${spider_name}").start()