3 years ago · 4deed6c298
--- a/ybw/list_spider.py
+++ b/ybw/list_spider.py
@@ -72,16 +72,15 @@ class ListSpider:
 
				                             proxy.switch()
			
 
				                         proxies = proxy.proxies
			
 
				                         retries += 1
			
 
				-                else:
			
 
				-                    login_cookies = load_login_cookies(self.user.phone)
			
 
				-                    request_params.update({'cookies': login_cookies})
			
 
				+                login_cookies = load_login_cookies(self.user.phone)
			
 
				+                request_params.update({'cookies': login_cookies})
			
 
				             elif element.xpath('//*[@id="pages"]') and len(element.xpath(feature)) > 0:
			
 
				                 return response
			
 
				             else:
			
 
				                 '''没有搜索到任何内容的页面'''
			
 
				                 return None
			
 
				 
			
 
				-        raise VoidCrawlError(code=100020, reason='列表页采集异常')
			
 
				+        raise VoidCrawlError(code=100020, reason='列表页访问失败')
			
 
				 
			
 
				     def crawl_response(self, response, menu: CrawlMenu):
			
 
				         results = []
			
@@ -153,12 +152,14 @@ class ListSpider:
 
				                     )
			
 
				                     refer = previous_url
			
 
				                     previous_url = url
			
 
				+                print(">>> ", url)
			
 
				                 sc.crawl_url = url
			
 
				                 sc.spider_code = menu.spidercode
			
 
				-                print(">>> ", url)
			
 
				+                '''添加身份信息cookies'''
			
 
				                 if crawl_total >= 4:
			
 
				                     '''列表数据从第4页开始,普通登录账号登录状态下才能获取数据'''
			
 
				                     cookies = load_login_cookies(self.user.phone)
			
 
				+                '''数据采集'''
			
 
				                 try:
			
 
				                     response = self.crawl_request(url, refer, cookies=cookies)
			
 
				                     if response is None:
			
@@ -171,10 +172,16 @@ class ListSpider:
 
				                         break
			
 
				                     else:
			
 
				                         crawl_total += 1
			
 
				-                except JyBasicException as e:
			
 
				+                except (JyBasicException, Exception) as e:
			
 
				+                    logger.error('[采集失败]{}-{}-第{}页, 错误类型:{}'.format(
			
 
				+                        menu.channel,
			
 
				+                        region_name,
			
 
				+                        page,
			
 
				+                        e.__class__.__name__,
			
 
				+                    ))
			
 
				                     sc.err_record(e)
			
 
				-                    logger.info(f'[采集失败]{menu.channel}-{region_name}-第{page}页-0条')
			
 
				-                sc.wait_for_next_task(random.choice(range(2, 8)))
			
 
				+                finally:
			
 
				+                    sc.wait_for_next_task(random.choice(range(2, 6)))
			
 
				             self.session.close()
			
 
				 
			
 
				     def start(self):
			
@@ -183,16 +190,8 @@ class ListSpider:
 
				                 scheduler.crawl_type = 'list'
			
 
				                 if scheduler.crawl_start:
			
 
				                     self.user = scheduler.user
			
 
				-                    while True:
			
 
				-                        try:
			
 
				-                            self.crawl_spider(scheduler, menu)
			
 
				-                            break
			
 
				-                        except Exception as e:
			
 
				-                            logger.error('采集分类的名称:{} 错误类型:{} '.format(
			
 
				-                                menu.channel,
			
 
				-                                e.__class__.__name__,
			
 
				-                            ))
			
 
				-                    scheduler.finished()
			
 
				+                    self.crawl_spider(scheduler, menu)
			
 
				+                scheduler.finished()
			
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':