3 年之前 · 8ca61541da
--- a/Details/details_webcookie.py
+++ b/Details/details_webcookie.py
@@ -190,8 +190,7 @@ class Details(feapder.Spider):
 
				         key = down_mid.get("key")
			
 
				         page_url = down_mid.get("page_url")
			
 
				         cookie_key = down_mid.get("cookie_key")
			
 
				-        print(page_url,cookie_key)
			
 
				-
			
 
				+        request.headers={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"}
			
 
				         cookie_pool = WebCookiePool(redis_key=key, page_url=page_url, cookie_key=cookie_key)
			
 
				         request.cookies = cookie_pool.get_cookie()
			
 
				         return request
			
--- a/FworkSpider/feapder/commands/create/create_spider.py
+++ b/FworkSpider/feapder/commands/create/create_spider.py
@@ -18,8 +18,7 @@ from .create_init import CreateInit
 
				 
			
 
				 def deal_file_info(file):
			
 
				     file = file.replace("{DATE}", tools.get_current_date())
			
 
				-    # file = file.replace("{USER}", getpass.getuser())
			
 
				-    file = file.replace("{USER}", os.path.basename(os.getcwd()))
			
 
				+    file = file.replace("{USER}", getpass.getuser())
			
 
				 
			
 
				     return file
			
 
				 
			
--- a/FworkSpider/feapder/core/base_parser.py
+++ b/FworkSpider/feapder/core/base_parser.py
@@ -95,12 +95,6 @@ class BaseParser(object):
 
				         ---------
			
 
				         @param request:  request.url 为文件下载地址， 该方法需要自行调用
			
 
				         request.INFO  为上传文件时所需要提供的部分参数  必传
			
 
				-         info = {
			
 
				-            "org_url": "http://www...",  # 文件下载连接
			
 
				-            "filename": f"{list_item.title}.docx",  # 文件名
			
 
				-            "channel": list_item.channel,
			
 
				-            "ftype": 'docx,zip,ftp', # 文件类型
			
 
				-        }
			
 
				         request.headers 则存放请求的必要参数，如：parmas，headers  必传
			
 
				         ---------
			
 
				         @result: request / item / callback / None (返回值必须可迭代)，正常处理为 None 即可
			
--- a/FworkSpider/feapder/core/parser_control.py
+++ b/FworkSpider/feapder/core/parser_control.py
@@ -141,21 +141,34 @@ class PaserControl(threading.Thread):
 
				                                     )
			
 
				                                 used_download_midware_enable = True
			
 
				                                 if not response:
			
 
				+                                    try:
			
 
				+                                        response = (
			
 
				+                                            request_temp.get_response()
			
 
				+                                            if not setting.RESPONSE_CACHED_USED
			
 
				+                                            else request_temp.get_response_from_cached(
			
 
				+                                                save_cached=False
			
 
				+                                            )
			
 
				+                                        )
			
 
				+                                    except Exception as e:
			
 
				+                                        log.info("requests", extra={"url": request.url or request_temp.url, "code": -1,"error_info":e})
			
 
				+                                        raise Exception(
			
 
				+                                            "连接超时 url: %s" % (request.url or request_temp.url)
			
 
				+                                        )
			
 
				+
			
 
				+                            else:
			
 
				+                                try:
			
 
				                                     response = (
			
 
				-                                        request_temp.get_response()
			
 
				+                                        request.get_response()
			
 
				                                         if not setting.RESPONSE_CACHED_USED
			
 
				-                                        else request_temp.get_response_from_cached(
			
 
				+                                        else request.get_response_from_cached(
			
 
				                                             save_cached=False
			
 
				                                         )
			
 
				                                     )
			
 
				-                            else:
			
 
				-                                response = (
			
 
				-                                    request.get_response()
			
 
				-                                    if not setting.RESPONSE_CACHED_USED
			
 
				-                                    else request.get_response_from_cached(
			
 
				-                                        save_cached=False
			
 
				+                                except Exception as e:
			
 
				+                                    log.info("requests", extra={"url": request.url or request_temp.url, "code": -1, "error_info": e})
			
 
				+                                    raise Exception(
			
 
				+                                        "连接超时 url: %s" % (request.url or request_temp.url)
			
 
				                                     )
			
 
				-                                )
			
 
				 
			
 
				                             if response == None:
			
 
				                                 raise Exception(
			
@@ -535,13 +548,19 @@ class AirSpiderParserControl(PaserControl):
 
				                                 request = request_temp
			
 
				 
			
 
				                             if not response:
			
 
				-                                response = (
			
 
				-                                    request.get_response()
			
 
				-                                    if not setting.RESPONSE_CACHED_USED
			
 
				-                                    else request.get_response_from_cached(
			
 
				-                                        save_cached=False
			
 
				+                                try:
			
 
				+                                    response = (
			
 
				+                                        request.get_response()
			
 
				+                                        if not setting.RESPONSE_CACHED_USED
			
 
				+                                        else request.get_response_from_cached(
			
 
				+                                            save_cached=False
			
 
				+                                        )
			
 
				+                                    )
			
 
				+                                except Exception as e:
			
 
				+                                    log.info("requests", extra={"url": request.url or request_temp.url, "code": -1, "error_info": e})
			
 
				+                                    raise Exception(
			
 
				+                                        "连接超时 url: %s" % (request.url or request_temp.url)
			
 
				                                     )
			
 
				-                                )
			
 
				 
			
 
				                         else:
			
 
				                             response = None
			
--- a/FworkSpider/feapder/core/scheduler.py
+++ b/FworkSpider/feapder/core/scheduler.py
@@ -324,13 +324,14 @@ class Scheduler(threading.Thread):
 
				         """
			
 
				         # 每分钟检查一次
			
 
				         now_time = time.time()
			
 
				-        if now_time - self._last_check_task_status_time > 60:
			
 
				+        if now_time - self._last_check_task_status_time > 30:
			
 
				             self._last_check_task_status_time = now_time
			
 
				         else:
			
 
				             return
			
 
				 
			
 
				         # 检查redis中任务状态，若连续20分钟内任务数量未发生变化（parser可能卡死），则发出报警信息
			
 
				         task_count = self._redisdb.zget_count(self._tab_requests)
			
 
				+        print(task_count)
			
 
				 
			
 
				         if task_count:
			
 
				             if task_count != self._last_task_count:
			
@@ -349,7 +350,7 @@ class Scheduler(threading.Thread):
 
				 
			
 
				                     -- 取值
			
 
				                     local last_timestamp = redis.call('hget', KEYS[1], field)
			
 
				-                    if last_timestamp and current_timestamp - last_timestamp >= 1200 then
			
 
				+                    if last_timestamp and current_timestamp - last_timestamp >= 600 then
			
 
				                         return current_timestamp - last_timestamp -- 返回任务停滞时间 秒
			
 
				                     end
			
 
				 
			
@@ -376,6 +377,8 @@ class Scheduler(threading.Thread):
 
				                         self._spider_name, tools.format_seconds(overtime)
			
 
				                     )
			
 
				                     log.error(msg)
			
 
				+                    log.error("爬虫任务异常停滞，爬虫将强制退出")
			
 
				+                    exit()
			
 
				                     self.send_msg(
			
 
				                         msg,
			
 
				                         level="error",
			
--- a/FworkSpider/feapder/network/cookie_pool.py
+++ b/FworkSpider/feapder/network/cookie_pool.py
@@ -242,7 +242,7 @@ class LoginCookiePool(CookiePoolInterface):
 
				         self._password_key = password_key
			
 
				 
			
 
				         self._redisdb = RedisDB()
			
 
				-        self._mysqldb = ()
			
 
				+        self._mysqldb = MysqlDB()
			
 
				 
			
 
				         self.create_userbase()
			
 
				 
			
--- a/FworkSpider/feapder/network/proxy_file/a62f3217a0981b7b2117d9d0af64c2db.txt
+++ b/FworkSpider/feapder/network/proxy_file/a62f3217a0981b7b2117d9d0af64c2db.txt
@@ -1,20 +1,20 @@
 
				-175.162.217.157:8860&&1643361380
			
 
				-222.86.85.51:8861&&1643361867
			
 
				-222.86.85.51:8860&&1643361867
			
 
				-182.101.215.123:8861&&1643361013
			
 
				-182.34.32.132:8860&&1643361124
			
 
				-182.101.215.123:8860&&1643361013
			
 
				-182.34.32.132:8861&&1643361124
			
 
				-113.123.0.11:8861&&1643361579
			
 
				-113.123.0.11:8860&&1643361579
			
 
				-117.66.140.217:8860&&1643361016
			
 
				-117.66.140.217:8861&&1643361016
			
 
				-123.10.66.129:8860&&1643361437
			
 
				-123.10.66.129:8861&&1643361437
			
 
				-123.169.34.75:8860&&1643360309
			
 
				-123.169.34.75:8861&&1643360309
			
 
				-175.162.217.157:8861&&1643361379
			
 
				-111.179.73.220:8860&&1643360596
			
 
				-111.179.73.220:8861&&1643360596
			
 
				-36.62.71.201:8861&&1643360585
			
 
				-36.62.71.201:8860&&1643360585
			
 
				+122.159.219.174:8860&&1653299700
			
 
				+182.34.19.216:8860&&1653299010
			
 
				+106.35.223.168:8861&&1653298655
			
 
				+125.45.91.69:8861&&1653298844
			
 
				+125.45.91.69:8860&&1653298844
			
 
				+122.159.219.174:8861&&1653299700
			
 
				+106.35.223.168:8860&&1653298655
			
 
				+182.34.19.216:8861&&1653299010
			
 
				+113.121.20.254:8861&&1653300488
			
 
				+125.72.106.216:8861&&1653300251
			
 
				+113.121.20.254:8860&&1653300488
			
 
				+125.72.106.216:8860&&1653300251
			
 
				+119.112.80.248:8861&&1653298967
			
 
				+119.112.80.248:8860&&1653298967
			
 
				+58.213.26.197:8860&&1653298952
			
 
				+58.213.26.197:8861&&1653298952
			
 
				+113.226.110.38:8861&&1653300048
			
 
				+113.226.110.38:8860&&1653300048
			
 
				+113.121.41.156:8860&&1653299102
			
 
				+113.121.41.156:8861&&1653299102
			
--- a/FworkSpider/feapder/network/request.py
+++ b/FworkSpider/feapder/network/request.py
@@ -9,6 +9,7 @@ Created on 2018-07-25 11:49:08
 
				 """
			
 
				 
			
 
				 import requests
			
 
				+from func_timeout import func_set_timeout, FunctionTimedOut
			
 
				 from requests.adapters import HTTPAdapter
			
 
				 from requests.cookies import RequestsCookieJar
			
 
				 from requests.packages.urllib3.exceptions import InsecureRequestWarning
			
@@ -19,9 +20,9 @@ from feapder.db.redisdb import RedisDB
 
				 from feapder.network import user_agent
			
 
				 from feapder.network.proxy_pool import ProxyPool
			
 
				 from feapder.network.response import Response
			
 
				-from feapder.utils.log import log
			
 
				+from feapder.utils.log import Log
			
 
				 from feapder.utils.webdriver import WebDriverPool
			
 
				-
			
 
				+log = Log()
			
 
				 # 屏蔽warning信息
			
 
				 requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
			
 
				 
			
@@ -247,6 +248,7 @@ class Request(object):
 
				             else self.callback
			
 
				         )
			
 
				 
			
 
				+    @func_set_timeout(30)
			
 
				     def get_response(self, save_cached=False):
			
 
				         """
			
 
				         获取带有selector功能的response
			
@@ -397,7 +399,7 @@ class Request(object):
 
				 
			
 
				         if save_cached:
			
 
				             self.save_cached(response, expire_time=self.__class__.cached_expire_time)
			
 
				-
			
 
				+        log.info("requests",extra={"url":response.url,"code":response.status_code})
			
 
				         return response
			
 
				 
			
 
				     def proxies(self):
			
@@ -485,7 +487,12 @@ class Request(object):
 
				         response_dict = self._cache_db.strget(self._cached_redis_key)
			
 
				         if not response_dict:
			
 
				             log.info("无response缓存  重新下载")
			
 
				-            response_obj = self.get_response(save_cached=save_cached)
			
 
				+            try:
			
 
				+                response_obj = self.get_response(save_cached=save_cached)
			
 
				+            except FunctionTimedOut:
			
 
				+                log.info("请求超时")
			
 
				+                log.info("requests", extra={"url": self.url, "code": 0})
			
 
				+
			
 
				         else:
			
 
				             response_dict = eval(response_dict)
			
 
				             response_obj = Response.from_dict(response_dict)
			
--- a/FworkSpider/feapder/templates/spider_list_template.tmpl
+++ b/FworkSpider/feapder/templates/spider_list_template.tmpl
@@ -2,14 +2,14 @@
 
				 """
			
 
				 Created on {DATE}
			
 
				 ---------
			
 
				-@summary: ${spider_name}
			
 
				+@summary:
			
 
				 ---------
			
 
				 @author: {USER}
			
 
				 """
			
 
				-import sys
			
 
				-sys.path.append('/app/spiders/sword_feapder/FworkSpider')
			
 
				+
			
 
				 import feapder
			
 
				-from items.spider_item import DataBakItem,MgpListItem,ListItem
			
 
				+from items.spider_item import DataBakItem,MgpListItem
			
 
				+from untils.proxy_pool import ProxyPool
			
 
				 from feapder.dedup import Dedup
			
 
				 from collections import namedtuple
			
 
				 
			
@@ -17,20 +17,21 @@ from collections import namedtuple
 
				 class ${spider_name}(feapder.Spider):
			
 
				 
			
 
				     def start_callback(self):
			
 
				+         self.count = 0
			
 
				          Menu = namedtuple('Menu', ['channel', 'code', 'types', 'crawl_page'])
			
 
				 
			
 
				          self.menus = [
			
 
				-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "自定义参数", 1),
			
 
				-             Menu('${spider_name}抓取栏目', '${spider_name}爬虫code', "Notice", 1),
			
 
				+             Menu('${spider_name}', '${spider_name}', "Notice", 1),
			
 
				+             Menu('${spider_name}', '${spider_name}', "Notice", 1),
			
 
				          ]
			
 
				     def start_requests(self):
			
 
				          for menu in self.menus:
			
 
				-             for page in range(1,menu.crawl_page+1):
			
 
				-                 start_url = f''
			
 
				-                 yield feapder.Request(url=start_url, item=menu._asdict(),proxies=False)
			
 
				+            start_url = f''
			
 
				+            yield feapder.Request(url=start_url, item=menu._asdict())
			
 
				 
			
 
				     def parse(self, request, response):
			
 
				         menu = request.item
			
 
				+        self.count += 1   # 一个计数器
			
 
				         dedup = Dedup(Dedup.BloomFilter)
			
 
				         href_list = []
			
 
				         info_list = []
			
@@ -55,34 +56,15 @@ class ${spider_name}(feapder.Spider):
 
				             list_item.parse = "self.detail_get"
			
 
				             list_item.parser_name = "details"
			
 
				             list_item.item = data_item.to_dict
			
 
				-            list_item.deal_detail = ['//div[@class="****"]',"*****"]
			
 
				-            list_item.proxies = False
			
 
				+            list_item.xpath = ['//****',"*****"]
			
 
				+            list_item.author = "****"
			
 
				             list_item.parse_url = href
			
 
				-            list_item.pri = 1
			
 
				-            list.files={
			
 
				-                "list_xpath":'//div[@class="notice-foot"]/a',
			
 
				-                "url_xpath":'./@href',
			
 
				-                "name_xpath":'./text()',
			
 
				-                "files_type":('zip','doxc','ftp'),
			
 
				-                "file_type":'zip',
			
 
				-                "url_key":'attachmentDownload',
			
 
				-                # "host":'http',
			
 
				-                "kwargs":{"headers": {
			
 
				-                    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
			
 
				-                }}
			
 
				             href_list.append(href)
			
 
				             yield list_item
			
 
				-        list = ListItem()
			
 
				-        list.site = self.site
			
 
				-        list.channel = menu.get("channel")
			
 
				-        list.spidercode = menu.get("code")
			
 
				-        list.url = request.url
			
 
				-        list.count = len(info_list)
			
 
				-        list.rel_count = len(href_list)
			
 
				         dedup.add(href_list)
			
 
				 
			
 
				     def end_callback(self):
			
 
				         print("爬虫结束")
			
 
				 
			
 
				 if __name__ == "__main__":
			
 
				-    ${spider_name}(redis_key="{USER}:${spider_name}").start()
			
 
				+    ${spider_name}(redis_key="fwork:${spider_name}").start()
			
--- a/FworkSpider/feapder/templates/spider_template.tmpl
+++ b/FworkSpider/feapder/templates/spider_template.tmpl
@@ -64,4 +64,4 @@ class ${spider_name}(feapder.Spider):
 
				         return request
			
 
				 
			
 
				 if __name__ == "__main__":
			
 
				-    ${spider_name}(redis_key="{USER}:${spider_name}").start()
			
 
				+    ${spider_name}(redis_key="fwork:${spider_name}").start()
			
--- a/FworkSpider/feapder/utils/aliyun.py
+++ b/FworkSpider/feapder/utils/aliyun.py
@@ -56,7 +56,7 @@ class UploadOSS:
 
				                 else:
			
 
				                     return "{:.1f} kb".format(_kb)
			
 
				 
			
 
				-    def get_state(self, attachment,count=0, **kwargs):
			
 
				+    def get_state(self, attachment, **kwargs):
			
 
				         """
			
 
				         下载附件并上传阿里oss
			
 
				 
			
@@ -78,10 +78,7 @@ class UploadOSS:
 
				                 if not os.path.exists(img_dir):
			
 
				                     os.makedirs(img_dir, mode=0o777, exist_ok=True)
			
 
				                 # 打开目录,放入下载的附件
			
 
				-                filname = hashlib.md5(attachment["filename"].encode("utf-8"))
			
 
				-                filname = filname.hexdigest() #加密1次
			
 
				-                types = attachment["ftype"]
			
 
				-                self.file_path = "{}/{}".format(img_dir, filname+'.'+types)
			
 
				+                self.file_path = "{}/{}".format(img_dir, attachment["filename"])
			
 
				                 with open(self.file_path, 'wb') as f:
			
 
				                     f.write(self.file_stream)
			
 
				                 # 上传附件
			
@@ -92,16 +89,13 @@ class UploadOSS:
 
				                 # 返回附件上传处理信息
			
 
				                 return file_state
			
 
				             else:
			
 
				-                if count<3:
			
 
				-                    self.post_state(attachment,count=count+1, **kwargs)
			
 
				-                else:
			
 
				-                    # attachment["ftype"] = str(attachment["filename"]).split(".")[1]
			
 
				-                    attachment["url"] = 'oss'
			
 
				-                    attachment["fid"] = self.fid + "." + attachment["ftype"]
			
 
				-                    attachment["size"] = '0kb'
			
 
				-                    attachment["false"] = True
			
 
				-                    return attachment
			
 
				-    def post_state(self, attachment,count=0, **kwargs):
			
 
				+                attachment["ftype"] = str(attachment["filename"]).split(".")[1]
			
 
				+                attachment["url"] = 'oss'
			
 
				+                attachment["fid"] = self.fid + "." + attachment["ftype"]
			
 
				+                attachment["size"] = '0kb'
			
 
				+                attachment["false"] = True
			
 
				+                return attachment
			
 
				+    def post_state(self, attachment, **kwargs):
			
 
				         """
			
 
				         下载附件并上传阿里oss
			
 
				 
			
@@ -122,10 +116,7 @@ class UploadOSS:
 
				                 if not os.path.exists(img_dir):
			
 
				                     os.makedirs(img_dir, mode=0o777, exist_ok=True)
			
 
				                 # 打开目录,放入下载的附件
			
 
				-                filname = hashlib.md5(attachment["filename"].encode("utf-8"))
			
 
				-                filname = filname.hexdigest()  # 加密1次
			
 
				-                types = attachment["ftype"]
			
 
				-                self.file_path = "{}/{}".format(img_dir, filname + '.' + types)
			
 
				+                self.file_path = "{}/{}{}".format(img_dir,time.time(),attachment["filename"])
			
 
				 
			
 
				                 with open(self.file_path, 'wb') as f:
			
 
				                     f.write(self.file_stream)
			
@@ -137,14 +128,12 @@ class UploadOSS:
 
				                 # 返回附件上传处理信息
			
 
				                 return file_state
			
 
				             else:
			
 
				-                if count<3:
			
 
				-                    self.post_state(attachment,count=count+1, **kwargs)
			
 
				-                else:
			
 
				-                    attachment["url"] = 'oss'
			
 
				-                    attachment["fid"] = self.fid + "." + attachment["ftype"]
			
 
				-                    attachment["size"] = '0kb'
			
 
				-                    attachment["false"] = True
			
 
				-                    return attachment
			
 
				+                attachment["ftype"] = str(attachment["filename"]).split(".")[1]
			
 
				+                attachment["url"] = 'oss'
			
 
				+                attachment["fid"] = self.fid + "." + attachment["ftype"]
			
 
				+                attachment["size"] = '0kb'
			
 
				+                attachment["false"] = True
			
 
				+                return attachment
			
 
				 
			
 
				     def put_oss_from_local(self):
			
 
				         """上传一个本地文件到阿里OSS的普通文件"""
			
@@ -159,7 +148,7 @@ class UploadOSS:
 
				         @param attachment: 附件
			
 
				         @return: 附件上传处理信息
			
 
				         """
			
 
				-        # attachment["ftype"] = str(attachment["filename"]).split(".")[1]
			
 
				+        attachment["ftype"] = str(attachment["filename"]).split(".")[1]
			
 
				         attachment["url"] = 'oss'
			
 
				         attachment["fid"] = self.fid + "." + attachment["ftype"]
			
 
				         attachment["size"] = self.file_size
			
--- a/FworkSpider/feapder/utils/log.py
+++ b/FworkSpider/feapder/utils/log.py
@@ -10,11 +10,10 @@ Created on 2018-12-08 16:50
 
				 import logging
			
 
				 import os
			
 
				 import sys
			
 
				-import time
			
 
				 from logging.handlers import BaseRotatingHandler
			
 
				 
			
 
				+import logstash
			
 
				 import loguru
			
 
				-import pymongo
			
 
				 from better_exceptions import format_exception
			
 
				 
			
 
				 import feapder.setting as setting
			
@@ -41,47 +40,45 @@ class RotatingFileHandler(BaseRotatingHandler):
 
				         self.max_bytes = max_bytes
			
 
				         self.backup_count = backup_count
			
 
				         self.placeholder = str(len(str(backup_count)))
			
 
				-        self._to_db = None
			
 
				-        self.filename = filename
			
 
				-
			
 
				-
			
 
				-    @property
			
 
				-    def to_db(self):
			
 
				-        if not self._to_db:
			
 
				-            self._to_db = pymongo.MongoClient(setting.MONGO_IP, setting.MONGO_PORT)
			
 
				-
			
 
				-        return self._to_db.pyspider
			
 
				 
			
 
				+    def doRollover(self):
			
 
				+        if self.stream:
			
 
				+            self.stream.close()
			
 
				+            self.stream = None
			
 
				+        if self.backup_count > 0:
			
 
				+            for i in range(self.backup_count - 1, 0, -1):
			
 
				+                sfn = ("%0" + self.placeholder + "d.") % i  # '%2d.'%i -> 02
			
 
				+                sfn = sfn.join(self.baseFilename.split("."))
			
 
				+                # sfn = "%d_%s" % (i, self.baseFilename)
			
 
				+                # dfn = "%d_%s" % (i + 1, self.baseFilename)
			
 
				+                dfn = ("%0" + self.placeholder + "d.") % (i + 1)
			
 
				+                dfn = dfn.join(self.baseFilename.split("."))
			
 
				+                if os.path.exists(sfn):
			
 
				+                    # print "%s -> %s" % (sfn, dfn)
			
 
				+                    if os.path.exists(dfn):
			
 
				+                        os.remove(dfn)
			
 
				+                    os.rename(sfn, dfn)
			
 
				+            dfn = (("%0" + self.placeholder + "d.") % 1).join(
			
 
				+                self.baseFilename.split(".")
			
 
				+            )
			
 
				+            if os.path.exists(dfn):
			
 
				+                os.remove(dfn)
			
 
				+            # Issue 18940: A file may not have been created if delay is True.
			
 
				+            if os.path.exists(self.baseFilename):
			
 
				+                os.rename(self.baseFilename, dfn)
			
 
				+        if not self.delay:
			
 
				+            self.stream = self._open()
			
 
				 
			
 
				     def shouldRollover(self, record):
			
 
				-        parmars = {
			
 
				-            "spider_name":record.name,
			
 
				-            "msg":record.msg,
			
 
				-            "Message":str(record.getMessage)
			
 
				-        }
			
 
				-        if record.levelname == "ERROR":
			
 
				-            crawl_type = 'list'
			
 
				-            if 'detail' in record.name:
			
 
				-                crawl_type = 'detail'
			
 
				-            url = ''
			
 
				-            item={
			
 
				-                "recordname":record.name,
			
 
				-                "spidercode":"spidercode",
			
 
				-                "author":self.filename,
			
 
				-                "account":"",
			
 
				-                "crawl_time":time.time(),
			
 
				-                "crawl_type": crawl_type,
			
 
				-                "status_code":"status_code",
			
 
				-                "url":url,
			
 
				-                "reason":record.msg,
			
 
				-                'parmars': parmars,
			
 
				-            }
			
 
				-
			
 
				-            # print('<<<<<<<<<<<<<<<<<<<<<<<插入error_info')
			
 
				-            # print(item)
			
 
				-            # print(self.to_db.error_info)
			
 
				-            # self.to_db.error_info.insert_one(item)
			
 
				 
			
 
				+        if self.stream is None:  # delay was set...
			
 
				+            self.stream = self._open()
			
 
				+        if self.max_bytes > 0:  # are we rolling over?
			
 
				+            msg = "%s\n" % self.format(record)
			
 
				+            self.stream.seek(0, 2)  # due to non-posix-compliant Windows feature
			
 
				+            if self.stream.tell() + len(msg) >= self.max_bytes:
			
 
				+                return 1
			
 
				+        return 0
			
 
				 
			
 
				 
			
 
				 def get_logger(
			
@@ -90,6 +87,7 @@ def get_logger(
 
				     log_level=None,
			
 
				     is_write_to_console=None,
			
 
				     is_write_to_file=None,
			
 
				+    is_send_to_logstash = None,
			
 
				     color=None,
			
 
				     mode=None,
			
 
				     max_bytes=None,
			
@@ -113,6 +111,7 @@ def get_logger(
 
				     @result:
			
 
				     """
			
 
				     # 加载setting里最新的值
			
 
				+    # name = os.path.split(os.getcwd())[-1]
			
 
				     name = name or setting.LOG_NAME
			
 
				     path = path or setting.LOG_PATH
			
 
				     log_level = log_level or setting.LOG_LEVEL
			
@@ -126,6 +125,11 @@ def get_logger(
 
				         if is_write_to_file is not None
			
 
				         else setting.LOG_IS_WRITE_TO_FILE
			
 
				     )
			
 
				+    is_send_to_logstash = (
			
 
				+        is_send_to_logstash
			
 
				+        if is_send_to_logstash is not None
			
 
				+        else setting.LOG_IS_SEND_TO_LOGSTASH
			
 
				+    )
			
 
				     color = color if color is not None else setting.LOG_COLOR
			
 
				     mode = mode or setting.LOG_MODE
			
 
				     max_bytes = max_bytes or setting.LOG_MAX_BYTES
			
@@ -144,8 +148,8 @@ def get_logger(
 
				 
			
 
				     # 定义一个RotatingFileHandler，最多备份5个日志文件，每个日志文件最大10M
			
 
				     if is_write_to_file:
			
 
				-        # if path and not os.path.exists(os.path.dirname(path)):
			
 
				-        #     os.makedirs(os.path.dirname(path))
			
 
				+        if path and not os.path.exists(os.path.dirname(path)):
			
 
				+            os.makedirs(os.path.dirname(path))
			
 
				 
			
 
				         rf_handler = RotatingFileHandler(
			
 
				             path,
			
@@ -156,6 +160,8 @@ def get_logger(
 
				         )
			
 
				         rf_handler.setFormatter(formatter)
			
 
				         logger.addHandler(rf_handler)
			
 
				+    if is_send_to_logstash:
			
 
				+        logger.addHandler(logstash.TCPLogstashHandler(setting.LOGSTASH_IP, setting.LOGSTASH_PORT, version=1))
			
 
				     if color and is_write_to_console:
			
 
				         loguru_handler = InterceptHandler()
			
 
				         loguru_handler.setFormatter(formatter)
			
--- a/FworkSpider/feapder/utils/redis_lock.py
+++ b/FworkSpider/feapder/utils/redis_lock.py
@@ -107,7 +107,7 @@ class RedisLock:
 
				                 time.sleep(1)
			
 
				                 continue
			
 
				             self.redis_conn.expire(self.lock_key, expire + 5)  # 延长5秒
			
 
				-            time.sleep(expire)  # 临过期5秒前，再次延长
			
 
				+            time.sleep(5)  # 临过期5秒前，再次延长
			
 
				             spend_time += expire
			
 
				             if self.lock_timeout and spend_time > self.lock_timeout:
			
 
				                 log.info("锁超时，释放")
			
--- a/FworkSpider/feapder/utils/tools.py
+++ b/FworkSpider/feapder/utils/tools.py
@@ -7,6 +7,7 @@ Created on 2018-09-06 14:21
 
				 @author: Boris
			
 
				 @email: boris_liu@foxmail.com
			
 
				 """
			
 
				+print('123木头人')
			
 
				 import asyncio
			
 
				 import calendar
			
 
				 import codecs
			
@@ -47,6 +48,7 @@ from w3lib.url import canonicalize_url as _canonicalize_url
 
				 import feapder.setting as setting
			
 
				 from feapder.utils.email_sender import EmailSender
			
 
				 from feapder.utils.log import log
			
 
				+
			
 
				 os.environ["EXECJS_RUNTIME"] = "Node"  # 设置使用node执行js
			
 
				 
			
 
				 # 全局取消ssl证书验证
			
@@ -56,7 +58,8 @@ TIME_OUT = 30
 
				 TIMER_TIME = 5
			
 
				 
			
 
				 redisdb = None
			
 
				-
			
 
				+def ccmu():
			
 
				+    print('sss')
			
 
				 
			
 
				 def get_redisdb():
			
 
				     global redisdb
			
--- a/FworkSpider/items/spider_item.py
+++ b/FworkSpider/items/spider_item.py
@@ -1,9 +1,8 @@
 
				 from feapder import Item
			
 
				-from untils.tools import int2long,substitute,text_search
			
 
				+from untils.tools import int2long,substitute,text_search,CheckPrePareRequest
			
 
				 import time
			
 
				 from feapder.utils.log import log
			
 
				 from feapder.utils.tools import get_current_date
			
 
				-from crawlab import save_item
			
 
				 from datetime import datetime
			
 
				 import os
			
 
				 from feapder import setting
			
@@ -63,9 +62,7 @@ class DataBakItem(Item):
 
				             if text_search(self.detail).total == 0:
			
 
				                 # 无正文内容时，该内容直接标记true, 不在被统计
			
 
				                 self.sendflag = "true"
			
 
				-        save_item({"site": self.site, "title": self.title,"error":False,
			
 
				-                   "spidercode":self.spidercode,"channel":self.channel,
			
 
				-                   })
			
 
				+
			
 
				 
			
 
				 
			
 
				 class MgpListItem(Item):
			
@@ -76,6 +73,7 @@ class MgpListItem(Item):
 
				         self.item = "" # 传过来的参数
			
 
				         self.parser_name = "" # 处理详情页的爬虫名
			
 
				         self.date = datetime.now().strftime('%Y-%m-%d %H:%M:%S') # 当前日期时间
			
 
				+        self.comeintime = int2long(int(time.time())) # 当前日期时间戳
			
 
				         self.deal_detail = [] # 定义解析详情页主页内容的解析，detail_get是一个xpath列表，detail_post 则是一段处理代码
			
 
				         self.create_time = None # 定义解析详情页发布时间的xpath，列表页无发布时间时应用
			
 
				         self.parse_url = "" # 定义解析详情页主页内容的xpath
			
@@ -89,10 +87,19 @@ class MgpListItem(Item):
 
				         self.proxies = True # 爬虫报警级 可分9级
			
 
				         self.files = False # 附件采集配置
			
 
				         self.error = None
			
 
				+        self.spidercode = ""
			
 
				         # self.error_info =
			
 
				     def pre_to_db(self):
			
 
				         # 生成入库时间戳（秒级）, 定义为long型
			
 
				         self.author = os.path.basename(os.getcwd())
			
 
				+        self.spidercode = self.item.get("spidercode")
			
 
				+
			
 
				+        if "通知公告" in self.item.get("channel"):
			
 
				+            CheckPrePareRequest().check_crawl_title(self.item.get("title"))
			
 
				+        elif "公告公示" in self.item.get("channel"):
			
 
				+            CheckPrePareRequest().check_crawl_title(self.item.get("title"))
			
 
				+        #  '''
			
 
				+
			
 
				 class ListItem(Item):
			
 
				     def __init__(self):
			
 
				         self.spidercode = ""  # 爬虫代码（编辑器爬虫平台定义）
			
@@ -100,6 +107,7 @@ class ListItem(Item):
 
				         self.channel = ""  # 采集的版块（编辑器爬虫平台定义）
			
 
				         self.url = ''
			
 
				         self.count=0
			
 
				+        self.code=-1
			
 
				         self.rel_count = 0
			
 
				 
			
 
				     def pre_to_db(self):
			
--- a/FworkSpider/mongo_pipeline.py
+++ b/FworkSpider/mongo_pipeline.py
@@ -9,12 +9,13 @@ Created on 2021-04-18 14:12:21
 
				 """
			
 
				 from typing import Dict, List, Tuple
			
 
				 import time
			
 
				-from feapder.db.mongodb import MongoDB
			
 
				+# from feapder.db.mongodb import MongoDB
			
 
				+from feapder.db.redisdb import RedisDB
			
 
				 from feapder.dedup import Dedup
			
 
				 from feapder.pipelines import BasePipeline
			
 
				 from feapder.utils.log import log
			
 
				 from untils.tools import *
			
 
				-from crawlab import save_item
			
 
				+# from crawlab import save_item
			
 
				 
			
 
				 
			
 
				 
			
@@ -25,7 +26,7 @@ class MongoPipeline(BasePipeline):
 
				     @property
			
 
				     def to_db(self):
			
 
				         if not self._to_db:
			
 
				-            self._to_db = MongoDB()
			
 
				+            self._to_db = RedisDB()
			
 
				 
			
 
				         return self._to_db
			
 
				 
			
@@ -40,56 +41,16 @@ class MongoPipeline(BasePipeline):
 
				                  若False，不会将本批数据入到去重库，以便再次入库
			
 
				         """
			
 
				         try:
			
 
				-            print(table)
			
 
				-            add_count = self.to_db.add_batch(coll_name=table, datas=items)
			
 
				-            for item in items:
			
 
				-                dedup = Dedup(Dedup.BloomFilter)
			
 
				-                dedup.add([item.get("href")])
			
 
				-                # save_item({'count':item.get("href")})
			
 
				+            add_count = self.to_db.lpush(table="savemongo:"+table, values=items)
			
 
				+            # add_count = self.to_db.lpop(table="savemongo:"+table, values=items)
			
 
				             datas_size = len(items)
			
 
				             log.info(
			
 
				                 "共导出 %s 条数据到 %s,  新增 %s条, 重复 %s 条"
			
 
				-                % (datas_size, table, add_count, datas_size - add_count)
			
 
				+                % (datas_size, table, len(items), datas_size - len(items))
			
 
				             )
			
 
				-            if table == "mgp_list":
			
 
				-                save_item({"site": "新增/回填", "title": add_count})
			
 
				 
			
 
				             return True
			
 
				         except Exception as e:
			
 
				             log.exception(e)
			
 
				             return False
			
 
				 
			
 
				-    def update_items(self, table, items: List[Dict], update_keys=Tuple) -> bool:
			
 
				-        """
			
 
				-        更新数据
			
 
				-        Args:
			
 
				-            table: 表名
			
 
				-            items: 数据，[{},{},...]
			
 
				-            update_keys: 更新的字段, 如 ("title", "publish_time")
			
 
				-
			
 
				-        Returns: 是否更新成功 True / False
			
 
				-                 若False，不会将本批数据入到去重库，以便再次入库
			
 
				-
			
 
				-        """
			
 
				-        try:
			
 
				-            add_count = self.to_db.add_batch(
			
 
				-                coll_name=table,
			
 
				-                datas=items,
			
 
				-                update_columns=update_keys or list(items[0].keys()),
			
 
				-            )
			
 
				-            datas_size = len(items)
			
 
				-            update_count = datas_size - add_count
			
 
				-            msg = "共导出 %s 条数据到 %s,  新增 %s 条, 更新 %s 条" % (
			
 
				-                datas_size,
			
 
				-                table,
			
 
				-                add_count,
			
 
				-                update_count,
			
 
				-            )
			
 
				-            if update_keys:
			
 
				-                msg += " 更新字段为 {}".format(update_keys)
			
 
				-            log.info(msg)
			
 
				-
			
 
				-            return True
			
 
				-        except Exception as e:
			
 
				-            log.exception(e)
			
 
				-            return False
			
--- a/FworkSpider/untils/WebCookiePool.py
+++ b/FworkSpider/untils/WebCookiePool.py
@@ -3,13 +3,11 @@ import sys
 
				 import requests
			
 
				 import re,execjs
			
 
				 
			
 
				-
			
 
				-sys.path.append('C:/Users/topnet/Desktop/crawlab_feader/FworkSpider')
			
 
				 sys.path.append('/app/spiders/sword_feapder/FworkSpider')
			
 
				 # from utils.cookie_pool import PageCookiePool
			
 
				-from feapder.utils.webdriver import WebDriverPool
			
 
				+from feapder.utils.webdriver import WebDriver
			
 
				 from feapder.utils.log import log
			
 
				-from FworkSpider.untils.cookie_pool import PageCookiePool
			
 
				+from untils.cookie_pool import PageCookiePool
			
 
				 
			
 
				 class WebCookiePool(PageCookiePool):
			
 
				     def __init__(self, redis_key, page_url=None,cookie_key=None,
			
@@ -21,30 +19,33 @@ class WebCookiePool(PageCookiePool):
 
				         self._kwargs = kwargs
			
 
				         self._kwargs.setdefault("load_images", False)
			
 
				         self._kwargs.setdefault("headless", True)
			
 
				-        self._kwargs.setdefault("executable_path", "D:\\geckodriver.exe")
			
 
				         self._kwargs.setdefault("driver_type", "FIREFOX")
			
 
				 
			
 
				-
			
 
				     def create_cookie(self):
			
 
				-        with WebDriverPool(**self._kwargs).get() as driver_pool:
			
 
				-            # driver = driver_pool.driver
			
 
				-            driver_pool.get(self.page_url)
			
 
				+        with WebDriver(**self._kwargs) as driver_pool:
			
 
				             import time
			
 
				+            # time.sleep(1111)
			
 
				             try:
			
 
				+                # driver_pool = self.driver_pool.get()
			
 
				+                driver_pool.get(self.page_url)
			
 
				                 count = 0
			
 
				                 while self.cookie_key not in driver_pool.cookies.keys():
			
 
				                     time.sleep(1)
			
 
				                     count+=1
			
 
				                     if count>=30:
			
 
				-                        # driver_pool.close()
			
 
				                         return
			
 
				                 cookies = driver_pool.cookies
			
 
				-                # driver_pool.close()
			
 
				                 return cookies
			
 
				-                # driver_pool.close()
			
 
				             except Exception as e:
			
 
				                 log.error(f"获取cookie失败,{e}")
			
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    WebCookiePool(redis_key='gdcookie',cookie_key='SUB',page_url="https://weibo.com/p/1005051203448454/home?from=page_100505_profile&wvr=6&mod=data&is_all=1#place").create_cookie()
			
 
				+    for i in range(10):
			
 
				+        print(f'开始第{i+1}次获取cookie')
			
 
				+        if i%3==0:
			
 
				+            WebCookiePool(redis_key='gdcookie',cookie_key='SUB',page_url="https://weibo.com/p/1005051203448454/home?from=page_100505_profile&wvr=6&mod=data&is_all=1#place").create_cookie()
			
 
				+        elif i%3==1:
			
 
				+            WebCookiePool(redis_key='gd2cookie',cookie_key='locale',page_url="https://www.jianshu.com/p/4c5bc85fc3fd").create_cookie()
			
 
				+        else:
			
 
				+            WebCookiePool(redis_key='gd3cookie',cookie_key='cna',page_url="https://docs-next.crawlab.cn/zh/guide/installation/docker.html#%E5%A4%96%E9%83%A8-mongodb").create_cookie()
			
--- a/FworkSpider/untils/__init__.py
+++ b/FworkSpider/untils/__init__.py
@@ -1,22 +0,0 @@
 
				-
			
 
				-
			
 
				-
			
 
				-'''
			
 
				-    时间一晃而过,转眼间两已经入职近三个月，我有幸来到公司剑雨产品部工作,在这短暂的三个月中，在公司领导的亲切关怀和指导下,在同事们的热情帮助下我很快的熟悉了公司环境，
			
 
				-适应了新的工作岗位，现将我试用期的工作情况简要小结如下
			
 
				-    一、严格遵守公司各项规章制度。上班开始，我认真学习了公司《员工手册》及各项管理制度，并严格遵守，做到了无违规现象。
			
 
				-    二、主动学习、尽快适应，迅速熟悉环境和工作内容。首先从尽快熟悉工作环境和工作内容；其次，主动、虚心向主管、同事请教、学习，基本掌握了日常上班的工作内容，工作流程、工作方法。
			
 
				-    三、工作积极、认真、负责，通过不断学习、虚心请教，总结积累，较好的完成了领导安排的各项工作任务。
			
 
				-        1、开发爬虫管理平台
			
 
				-        2、搭建定制爬虫框架，开发通用模块、伪代码生成器，以达到提升开发效率的目标
			
 
				-        3、实现管理平台的线上部署与基础测试，目前已部署爬虫15个，且正常运行中
			
 
				-        4、编写发文档、在小组内进行相关人员的培训，让小组的人一起来对这个框架和管理平台进行测评
			
 
				-        5、日常数据采集，目前开发共三十个平台爬虫，涉及一百多个栏目，数据采集量达二十多万
			
 
				-    四、与同事之间和谐相处、加强沟通、团结协作，以尽快更好的融入团队。
			
 
				-    五、存在问题及解决办法：
			
 
				-        1、与同事间的沟通交流较少，以后要加强同事间的沟通交流
			
 
				-        2、js反爬比较能力不够强，以后多学习js相关知识，提高js反爬能力
			
 
				-        3、逻辑不够严谨，仔细仔细再仔细，
			
 
				-
			
 
				-
			
 
				-'''
			
--- a/FworkSpider/untils/attachment.py
+++ b/FworkSpider/untils/attachment.py
@@ -7,8 +7,6 @@ from urllib.parse import urlparse, unquote
 
				 
			
 
				 import requests
			
 
				 import urllib3
			
 
				-import sys
			
 
				-sys.path.append('C:/Users/topnet/Desktop/crawlab_feader/FworkSpider')
			
 
				 
			
 
				 from feapder.setting import headers
			
 
				 from untils.execptions import AttachmentNullError
			
@@ -18,33 +16,26 @@ from untils.proxy_pool import ProxyPool
 
				 urllib3.disable_warnings()
			
 
				 
			
 
				 
			
 
				-def sha1(val):
			
 
				-    _sha1 = hashlib.sha1()
			
 
				+def hex_sha1(val):
			
 
				+    sha1 = hashlib.sha1()
			
 
				     if isinstance(val, bytes):
			
 
				-        _sha1.update(str(val).encode("utf-8"))
			
 
				+        sha1.update(str(val).encode("utf-8"))
			
 
				     elif isinstance(val, str):
			
 
				-        _sha1.update(val.encode("utf-8"))
			
 
				-    return _sha1.hexdigest()
			
 
				+        sha1.update(val.encode("utf-8"))
			
 
				+    res = sha1.hexdigest()
			
 
				+    return res
			
 
				 
			
 
				 
			
 
				-def remove(file_path: str):
			
 
				-    os.remove(file_path)
			
 
				-
			
 
				-
			
 
				-def getsize(file_path: str):
			
 
				-    try:
			
 
				-        return os.path.getsize(file_path)
			
 
				-    except FileNotFoundError:
			
 
				-        return 0
			
 
				-
			
 
				+def extract_file_type(text):
			
 
				+    if text is None:
			
 
				+        return None
			
 
				 
			
 
				-def discern_file_format(text):
			
 
				     file_types = {
			
 
				-        'pdf', 'doc', 'docx', 'rar', 'zip', 'gzzb', 'jpg', 'png', 'swf'
			
 
				+        'pdf', 'doc', 'docx', 'rar', 'zip', 'gzzb', 'jpg', 'png'
			
 
				     }
			
 
				     for file_type in file_types:
			
 
				-        all_file_format = [file_type, file_type.upper()]
			
 
				-        for t in all_file_format:
			
 
				+        tmp = [file_type, file_type.upper()]
			
 
				+        for t in tmp:
			
 
				             result = re.match(f'.*{t}$', text, re.S)
			
 
				             if result is not None:
			
 
				                 return t
			
@@ -52,14 +43,7 @@ def discern_file_format(text):
 
				         return None
			
 
				 
			
 
				 
			
 
				-def extract_file_type(text):
			
 
				-    if text is None:
			
 
				-        return None
			
 
				-    return discern_file_format(text)
			
 
				-
			
 
				-
			
 
				-def extract_file_name_by_href(href: str, file_type: str):
			
 
				-    """从url中抽取文件名称"""
			
 
				+def extract_file_name(href: str, file_type: str):
			
 
				     # 中文标点符号:[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]
			
 
				     # 中文字符:[\u4e00 -\u9fa5]
			
 
				     zh_char_pattern = '[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]+'
			
@@ -74,56 +58,29 @@ def extract_file_name_by_href(href: str, file_type: str):
 
				     return None
			
 
				 
			
 
				 
			
 
				-def extract_file_name(text):
			
 
				-    file_type = discern_file_format(text)
			
 
				-    if file_type is not None:
			
 
				-        repl = '.{}'.format(file_type)
			
 
				-        text = text.replace(repl, '')
			
 
				-    return text
			
 
				-
			
 
				-
			
 
				 def verify_file_name(name):
			
 
				     if extract_file_type(name) is None:
			
 
				         raise ValueError
			
 
				 
			
 
				 
			
 
				-class AttachmentNullError(Exception):
			
 
				-
			
 
				-    def __init__(self, code: int = 10004, reason: str = '附件下载异常', **kwargs):
			
 
				-        self.code = code
			
 
				-        self.reason = reason
			
 
				-        self.err_details = kwargs
			
 
				-        for key, val in kwargs.items():
			
 
				-            setattr(self, key, val)
			
 
				-
			
 
				-
			
 
				 class AttachmentDownloader:
			
 
				 
			
 
				     def __init__(self):
			
 
				-        self.dir_name = 'file'
			
 
				+        self.dir_name = '/file'
			
 
				+
			
 
				+    def create_dir(self):
			
 
				+        if not os.path.exists(self.dir_name):
			
 
				+            os.makedirs(self.dir_name, mode=0o777, exist_ok=True)
			
 
				 
			
 
				-    def get_file_path(self, filename, file_type):
			
 
				-        os.makedirs(self.dir_name, mode=0o777, exist_ok=True)
			
 
				-        sha1_name = sha1("{}_{}".format(filename, uuid.uuid4()))
			
 
				-        tmp_name = "{}.{}".format(sha1_name, file_type)
			
 
				+    def create_file_path(self, filename, file_type):
			
 
				+        self.create_dir()
			
 
				+        sign = hex_sha1("{}_{}".format(filename, uuid.uuid4()))
			
 
				+        tmp_name = "{}.{}".format(sign, file_type)
			
 
				         return "{}/{}".format(self.dir_name, tmp_name)
			
 
				 
			
 
				     @staticmethod
			
 
				     def create_fid(file_stream: bytes):
			
 
				-        return sha1(file_stream)
			
 
				-
			
 
				-    @staticmethod
			
 
				-    def file_size(file_path: str):
			
 
				-        _kb = float(getsize(file_path)) / 1024
			
 
				-        if _kb >= 1024:
			
 
				-            _M = _kb / 1024
			
 
				-            if _M >= 1024:
			
 
				-                _G = _M / 1024
			
 
				-                return "{:.1f} G".format(_G)
			
 
				-            else:
			
 
				-                return "{:.1f} M".format(_M)
			
 
				-        else:
			
 
				-            return "{:.1f} kb".format(_kb)
			
 
				+        return hex_sha1(file_stream)
			
 
				 
			
 
				     @staticmethod
			
 
				     def _fetch_attachment(
			
@@ -162,6 +119,29 @@ class AttachmentDownloader:
 
				                 retries += 1
			
 
				         return b''
			
 
				 
			
 
				+    @staticmethod
			
 
				+    def clean_attachment(file_path):
			
 
				+        os.remove(file_path)
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def getsize(file_path: str):
			
 
				+        def _getsize(filename):
			
 
				+            try:
			
 
				+                return os.path.getsize(filename)
			
 
				+            except:
			
 
				+                return 0
			
 
				+
			
 
				+        _kb = float(_getsize(file_path)) / 1024
			
 
				+        if _kb >= 1024:
			
 
				+            _M = _kb / 1024
			
 
				+            if _M >= 1024:
			
 
				+                _G = _M / 1024
			
 
				+                return "{:.1f} G".format(_G)
			
 
				+            else:
			
 
				+                return "{:.1f} M".format(_M)
			
 
				+        else:
			
 
				+            return "{:.1f} kb".format(_kb)
			
 
				+
			
 
				     def fetch_attachment(
			
 
				             self,
			
 
				             file_name: str,
			
@@ -174,7 +154,7 @@ class AttachmentDownloader:
 
				         if not file_name or not file_type or not download_url:
			
 
				             raise AttachmentNullError
			
 
				 
			
 
				-        file_path = self.get_file_path(file_name, file_type)
			
 
				+        file_path = self.create_file_path(file_name, file_type)
			
 
				         file_stream = self._fetch_attachment(
			
 
				             download_url,
			
 
				             file_path,
			
@@ -184,35 +164,35 @@ class AttachmentDownloader:
 
				         )
			
 
				         if len(file_stream) > 0:
			
 
				             fid = self.create_fid(file_stream)
			
 
				-            '''上传/下载,无论失败/成功最终返回附件信息'''
			
 
				+            '''上传/下载,无论失败成功都需要给出文件基础信息'''
			
 
				             try:
			
 
				                 result = {
			
 
				-                    'filename': '{}.{}'.format(file_name, file_type),
			
 
				+                    'filename': file_name,
			
 
				                     'ftype': file_type,
			
 
				                     'fid': "{}.{}".format(fid, file_type),
			
 
				                     'org_url': download_url,
			
 
				-                    'size': self.file_size(file_path),
			
 
				+                    'size': self.getsize(file_path),
			
 
				                     'url': 'oss',
			
 
				                 }
			
 
				                 AliYunService().push_oss_from_local(result['fid'], file_path)
			
 
				             except Exception:
			
 
				                 result = {
			
 
				-                    'filename': '{}.{}'.format(file_name, file_type),
			
 
				+                    'filename': file_name,
			
 
				                     'org_url': download_url,
			
 
				                 }
			
 
				+            self.clean_attachment(file_path)
			
 
				         else:
			
 
				             result = {
			
 
				-                'filename': '{}.{}'.format(file_name, file_type),
			
 
				+                'filename': file_name,
			
 
				                 'org_url': download_url,
			
 
				             }
			
 
				-        remove(file_path)
			
 
				         return result
			
 
				 
			
 
				 
			
 
				-if __name__ == '__main__':
			
 
				-    a = AttachmentDownloader().fetch_attachment(
			
 
				-        file_name='成建制移民村（五标段）合同',
			
 
				-        file_type='pdf',
			
 
				-        download_url='http://222.75.70.90/NXGPPSP_MG/downloadFileServlet?req=F&num=8b80b23f7e729b88017e758a1b03422c'
			
 
				-    )
			
 
				-    print(a)
			
 
				+# if __name__ == '__main__':
			
 
				+    # a = AttachmentDownloader().fetch_attachment(
			
 
				+    #     file_name='成建制移民村（五标段）合同',
			
 
				+    #     file_type='pdf',
			
 
				+    #     download_url='http://222.75.70.90/NXGPPSP_MG/downloadFileServlet?req=F&num=8b80b23f7e729b88017e758a1b03422c'
			
 
				+    # )
			
 
				+    # print(a)
			
--- a/FworkSpider/untils/cookie_pool.py
+++ b/FworkSpider/untils/cookie_pool.py
@@ -16,13 +16,13 @@ import warnings
 
				 from collections import Iterable
			
 
				 from enum import Enum, unique
			
 
				 import requests
			
 
				+from feapder.db.mongodb import MongoDB
			
 
				 
			
 
				 import feapder.utils.tools as tools
			
 
				 from feapder import setting
			
 
				 from feapder.network import user_agent
			
 
				 
			
 
				 from feapder.db.mysqldb import MysqlDB
			
 
				-from feapder.db.mongodb import MongoDB
			
 
				 from feapder.db.redisdb import RedisDB
			
 
				 from feapder.utils import metrics
			
 
				 from feapder.utils.log import log
			
@@ -178,7 +178,7 @@ class PageCookiePool(CookiePoolInterface):
 
				             try:
			
 
				                 cookie_info = self._redisdb.rpoplpush(self._tab_cookie_pool)
			
 
				                 if not cookie_info and wait_when_null:
			
 
				-                    log.info("暂无cookie 生产中...")
			
 
				+                    log.info("暂无cookie 生产中..."+self._tab_cookie_pool)
			
 
				                     self._keep_alive = False
			
 
				                     self._min_cookies = 1
			
 
				                     with RedisLock(
			
@@ -291,7 +291,7 @@ class LoginCookiePool(CookiePoolInterface):
 
				             try:
			
 
				                 user_cookie = self._redisdb.rpoplpush(self._tab_cookie_pool)
			
 
				                 if not user_cookie and wait_when_null:
			
 
				-                    log.info("暂无cookie 生产中...")
			
 
				+                    log.info("暂无cookie 生产中..."+self._tab_cookie_pool)
			
 
				                     self.login()
			
 
				                     continue
			
 
				 
			
@@ -785,3 +785,10 @@ class LimitTimesUserPool:
 
				         for limit_times_user in self.limit_times_users:
			
 
				             if limit_times_user.username == username:
			
 
				                 limit_times_user.record_user_status(LimitTimesUserStatus.EXCEPTION)
			
 
				+
			
 
				+# if __name__ == '__main__':
			
 
				+#     cookiepool = PageCookiePool(redis_key='fwork:gszfcg',
			
 
				+#                                 page_url='http://www.ccgp-hubei.gov.cn/notice/cgyxgg/index_1.html',
			
 
				+#                                 driver_type='FIREFOX',
			
 
				+#                                 executable_path="D:\\geckodriver.exe")
			
 
				+#     cookiepool.create_cookie()
			
--- a/FworkSpider/untils/create_menus.py
+++ b/FworkSpider/untils/create_menus.py
@@ -1,10 +1,3 @@
 
				-# -*- coding: utf-8 -*-
			
 
				-"""
			
 
				-Created on 2021-12-13 10:04:03
			
 
				----------
			
 
				-@summary:  快捷创建meaus配置
			
 
				-
			
 
				-"""
			
 
				 from feapder.db.mongodb import MongoDB
			
 
				 
			
 
				 
			
--- a/FworkSpider/untils/tools.py
+++ b/FworkSpider/untils/tools.py
@@ -6,6 +6,7 @@ import requests
 
				 from setting import WECHAT_WARNING_URL,WECHAT_WARNING_PHONE,WARNING_INTERVAL,WECHAT_WARNING_ALL
			
 
				 import bson
			
 
				 from feapder.utils.log import log
			
 
				+from feapder.db.mongodb import MongoDB
			
 
				 
			
 
				 
			
 
				 SearchText = namedtuple('SearchText', ['total'])
			
@@ -116,6 +117,14 @@ def int2long(param: int):
 
				     """int 转换成 long """
			
 
				     return bson.int64.Int64(param)
			
 
				 
			
 
				+def get_spiders(menus):
			
 
				+    db = MongoDB(db="editor")
			
 
				+    for menu in menus:
			
 
				+        spider_info = db.find('luaconfig',{"code":menu.code})
			
 
				+        if len(spider_info) >0:
			
 
				+            if spider_info[0].get("state") not in (11,):
			
 
				+                menus.remove(menu)
			
 
				+
			
 
				 def wechat_warning(
			
 
				     message,
			
 
				     message_prefix=None,
			
@@ -161,3 +170,63 @@ def wechat_warning(
 
				     except Exception as e:
			
 
				         log.error("报警发送失败。 报警内容 {}, error: {}".format(message, e))
			
 
				         return False
			
 
				+
			
 
				+class JyBasicException(Exception):
			
 
				+
			
 
				+    def __init__(self, code: int, reason: str, **kwargs):
			
 
				+        self.code = code
			
 
				+        self.reason = reason
			
 
				+        self.err_details = kwargs
			
 
				+        for key, val in kwargs.items():
			
 
				+            setattr(self, key, val)
			
 
				+
			
 
				+class CustomCheckError(JyBasicException):
			
 
				+
			
 
				+    def __init__(self, code: int = 10002, reason: str = '特征条件检查异常', **kwargs):
			
 
				+        self.code = code
			
 
				+        self.reason = reason
			
 
				+        self.err_details = kwargs
			
 
				+        for key, val in kwargs.items():
			
 
				+            setattr(self, key, val)
			
 
				+class CheckPrePareRequest:
			
 
				+
			
 
				+    def __init__(self):
			
 
				+        self.crawl_keywords = {
			
 
				+            '招标', '流标', '评标', '询价', '中标候选人', '抽签', '谈判', '中选', '意见征询',
			
 
				+            '更正公告', '废标', '补遗', '议价', '邀请', '资格预审', '竞标', '变更', '遴选',
			
 
				+            '磋商', '项目', '评审', '询比', '开标', '澄清', '比选', '中止', '采购', '竟价',
			
 
				+            '招投标', '拟建', '成交', '中标', '竞争性谈判', '工程', '验收公告', '更正',
			
 
				+            '单一来源', '变更公告', '合同', '违规', '评判', '监理', '竞价', '答疑',
			
 
				+            '终止', '系统'
			
 
				+        }
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def check_es_cache(title: str, publish_time: int, rows: dict):
			
 
				+        """
			
 
				+
			
 
				+        :param title:  标题
			
 
				+        :param publish_time: 发布时间的时间戳(l_np_publishtime)
			
 
				+        :param rows: 采集内容
			
 
				+        """
			
 
				+        pass
			
 
				+        # retrieved_result = es_query(title, publish_time)
			
 
				+        # if retrieved_result != 0:
			
 
				+        #     '''es查询数据结果'''
			
 
				+        #     rows['count'] = retrieved_result
			
 
				+        #     raise CustomCheckError(code=10105, reason='标题内容已存在es')
			
 
				+
			
 
				+    def check_crawl_title(self, title: str):
			
 
				+        for keyword in self.crawl_keywords:
			
 
				+            valid_keyword = re.search(keyword, title)
			
 
				+            if valid_keyword is not None:
			
 
				+                break
			
 
				+        else:
			
 
				+            raise CustomCheckError(code=10106, reason='标题未检索到采集关键词', title=title)
			
 
				+
			
 
				+    def __check(self, rows: dict):
			
 
				+        title, publish_time = rows['title'], rows['l_np_publishtime']
			
 
				+        self.check_crawl_title(title)
			
 
				+        self.check_es_cache(title, publish_time, rows)
			
 
				+
			
 
				+    def __call__(self, rows: dict, *args, **kwargs):
			
 
				+        self.__check(rows)