1 week ago · e21cf644f0
--- a/a_zghnjtgs_gkxjgg/中国华能集团公司-公开询价公告-列表页.py
+++ b/a_zghnjtgs_gkxjgg/中国华能集团公司-公开询价公告-列表页.py
@@ -6,19 +6,18 @@ Created on 2025-04-22
 
				 ---------
			
 
				 @author: lzz
			
 
				 """
			
 
				-import feapder
			
 
				-from items.spider_item import MgpListItem
			
 
				+import re
			
 
				 from collections import namedtuple
			
 
				+
			
 
				+import feapder
			
 
				+from items.spider_item import BidingListItem
			
 
				 from untils.WebCookiePool import WebCookiePool
			
 
				 from untils.tools import get_proxy
			
 
				-import re
			
 
				 
			
 
				 
			
 
				-
			
 
				-class ZtbpcFeapder(feapder.BiddingListSpider):
			
 
				+class Spider(feapder.BiddingListSpider):
			
 
				 
			
 
				     def start_callback(self):
			
 
				-
			
 
				         self.site = "中国华能集团公司"
			
 
				 
			
 
				         Menu = namedtuple('Menu', ['channel', 'code', 'tp', 'crawl_page'])
			
@@ -39,22 +38,20 @@ class ZtbpcFeapder(feapder.BiddingListSpider):
 
				             "Upgrade-Insecure-Requests": "1",
			
 
				             "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
			
 
				         }
			
 
				-        self.proxy = get_proxy()
			
 
				-        self.ct = 0
			
 
				+
			
 
				         self.cookie_pool = WebCookiePool(redis_key="zghnjtgs_gkxjgg_ck",
			
 
				                                          page_url="http://ec.chng.com.cn/ecmall/more.do",
			
 
				-                                         cookie_key="S6J51OuUjLieT",
			
 
				-                                         driver_type="FIREFOX")
			
 
				+                                         cookie_key="S6J51OuUjLieP")
			
 
				+        self.cookie_pool.user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36")
			
 
				 
			
 
				     def start_requests(self):
			
 
				+        url = "http://ec.chng.com.cn/ecmall/more.do"
			
 
				         for menu in self.menus:
			
 
				-            start_url = "http://ec.chng.com.cn/ecmall/more.do"
			
 
				-            yield feapder.Request(url=start_url, item=menu._asdict(), page=1, proxies=False)
			
 
				+            proxies = get_proxy()
			
 
				+            yield feapder.Request(url, item=menu._asdict(), page=1, proxies=proxies)
			
 
				 
			
 
				     def download_midware(self, request):
			
 
				         page = request.page
			
 
				-        self.cookie_pool.proxy = self.proxy.get('http')
			
 
				-        cookies = self.cookie_pool.get_cookie()
			
 
				         menu = request.item
			
 
				         data = {
			
 
				             "type": "107",
			
@@ -65,73 +62,70 @@ class ZtbpcFeapder(feapder.BiddingListSpider):
 
				             "limit": "50"
			
 
				         }
			
 
				         request.data = data
			
 
				-        request.cookies = cookies
			
 
				+
			
 
				+        self.cookie_pool.proxies(request.get_proxy())
			
 
				+        request.cookies = self.cookie_pool.get_cookie()
			
 
				         request.headers = self.headers
			
 
				 
			
 
				-    def exception_request(self, request, response):
			
 
				-        self.proxy = get_proxy()
			
 
				-        yield request
			
 
				+    def validate(self, request, response):
			
 
				+        if response.status_code != 200:
			
 
				+            raise ConnectionRefusedError
			
 
				+        return True
			
 
				 
			
 
				     def parse(self, request, response):
			
 
				-        if self.ct > 5:
			
 
				-            return
			
 
				-        if response.status_code != 200:
			
 
				-            self.ct += 1
			
 
				-            self.cookie_pool.del_cookie(self.cookie_pool.get_cookie())
			
 
				-            self.proxy = get_proxy()
			
 
				-            yield request
			
 
				-        else:
			
 
				-            self.ct = 0
			
 
				-            menu = request.item
			
 
				-            info_list = response.xpath('//ul[@class="main_r_con"]/li')
			
 
				-            for info in info_list:
			
 
				-                href_org = info.xpath('./a/@href').extract_first()
			
 
				-                hid = "".join(re.findall("\('(.*?)'", href_org))
			
 
				-                href = f"https://ec.chng.com.cn/ecmall/announcement/announcementDetail.do?announcementId={hid}"
			
 
				-                title = info.xpath('./a/@title').extract_first("").strip()
			
 
				-                publish_time = info.xpath('./p/text()').extract_first("").strip()
			
 
				-
			
 
				-                area = "全国"  # 省份
			
 
				-                city = ""  # 城市
			
 
				-                district = ""  # 区县
			
 
				-
			
 
				-                list_item = MgpListItem()  # 存储数据的管道
			
 
				-                list_item.href = href  # 标书链接
			
 
				-                list_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
			
 
				-                list_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
			
 
				-                list_item.title = title  # 标题
			
 
				-                list_item.publishtime = publish_time  # 标书发布时间
			
 
				-                list_item.site = self.site
			
 
				-                list_item.area = area or "全国"  # 省份 默认:全国
			
 
				-                list_item.city = city  # 城市 默认 为空
			
 
				-                list_item.district = district  # 区县 默认 为空
			
 
				-
			
 
				-                list_item.unique_key = ('href',publish_time)
			
 
				-                list_item.parse = "self.detail_get"  # 详情页回调方法
			
 
				-                list_item.request_params = {"rm_list":['//div[@class="layui-layer-btnhz"]',
			
 
				-                                                       '//div[@class="company"]',
			
 
				-                                                       '//div[@class="main_r_t border_f4"]']}
			
 
				-                list_item.deal_detail = ['//div[@class="detail_boxhz"]',
			
 
				-                                         '//div[@class="detail_box qst_box"]',
			
 
				-                                         '//div[@class="main_box"]']  # 抽取正文xpath
			
 
				-                list_item.proxies = True
			
 
				-                list_item.parse_url = href
			
 
				-
			
 
				-                list_item.files = {
			
 
				-                    "list_xpath": '//a[@href]',
			
 
				-                    "url_xpath": './@href',
			
 
				-                    "name_xpath": './text()',
			
 
				-                    # "file_type":'pdf',                  # 默认的附件类型，用于url中未带附件类型的
			
 
				-                    "url_key": 'http',  # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
			
 
				-                    "host": '',  # 需要拼接url的host
			
 
				-                }
			
 
				-
			
 
				-                yield list_item
			
 
				-
			
 
				-
			
 
				-            request = self.infinite_pages(request, response)
			
 
				-            yield request
			
 
				+        menu = request.item
			
 
				+        info_list = response.xpath('//ul[@class="main_r_con"]/li')
			
 
				+        for info in info_list:
			
 
				+            href_org = info.xpath('./a/@href').extract_first()
			
 
				+            hid = "".join(re.findall("\('(.*?)'", href_org))
			
 
				+            href = f"https://ec.chng.com.cn/ecmall/announcement/announcementDetail.do?announcementId={hid}"
			
 
				+            title = info.xpath('./a/@title').extract_first("").strip()
			
 
				+            publish_time = info.xpath('./p/text()').extract_first("").strip()
			
 
				+
			
 
				+            area = "全国"  # 省份
			
 
				+            city = ""  # 城市
			
 
				+            district = ""  # 区县
			
 
				+
			
 
				+            list_item = BidingListItem()  # 存储数据的管道
			
 
				+            list_item.href = href  # 标书链接
			
 
				+            list_item.channel = menu.get("channel")  # 最上方定义的抓取栏目 （编辑器定的）
			
 
				+            list_item.spidercode = menu.get("code")  # 最上方定义的爬虫code（编辑器定的）
			
 
				+            list_item.title = title  # 标题
			
 
				+            list_item.publishtime = publish_time  # 标书发布时间
			
 
				+            list_item.site = self.site
			
 
				+            list_item.area = area or "全国"  # 省份 默认:全国
			
 
				+            list_item.city = city  # 城市 默认 为空
			
 
				+            list_item.district = district  # 区县 默认 为空
			
 
				+
			
 
				+            list_item.unique_key = ('href', publish_time)
			
 
				+            list_item.parse = "self.detail_get"  # 详情页回调方法
			
 
				+            list_item.request_params = {"rm_list":['//div[@class="layui-layer-btnhz"]',
			
 
				+                                                   '//div[@class="company"]',
			
 
				+                                                   '//div[@class="main_r_t border_f4"]']}
			
 
				+            list_item.deal_detail = ['//div[@class="detail_boxhz"]',
			
 
				+                                     '//div[@class="detail_box qst_box"]',
			
 
				+                                     '//div[@class="main_box"]']  # 抽取正文xpath
			
 
				+            list_item.proxies = True
			
 
				+            list_item.parse_url = href
			
 
				+
			
 
				+            list_item.files = {
			
 
				+                "list_xpath": '//a[@href]',
			
 
				+                "url_xpath": './@href',
			
 
				+                "name_xpath": './text()',
			
 
				+                # "file_type":'pdf',                  # 默认的附件类型，用于url中未带附件类型的
			
 
				+                "url_key": 'http',  # 用于区别连接是否为正常附件连接的url关键词 必须携带，如无可填http
			
 
				+                "host": '',  # 需要拼接url的host
			
 
				+            }
			
 
				+            yield list_item
			
 
				+
			
 
				+        request = self.infinite_pages(request, response)
			
 
				+        yield request
			
 
				+
			
 
				+    def exception_request(self, request, response):
			
 
				+        self.cookie_pool.del_cookie(self.cookie_pool.get_cookie())
			
 
				+        request.proxies = get_proxy()
			
 
				+        yield request
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
 
				-    ZtbpcFeapder(redis_key="detail:firefox").start()
			
 
				+    Spider(redis_key="detail:firefox").start()