소스 검색

数据去重只有在入库之后,才会添加redis去重

萤火也是火 3 년 전
부모
커밋
c94b3e3ddb
1개의 변경된 파일1개의 추가작업 그리고 1개의 파일을 삭제
  1. 1 1
      jzsc/spider.py

+ 1 - 1
jzsc/spider.py

@@ -371,6 +371,7 @@ def crawl_spider(driver: Chrome, handler):
             '''保存企业数据'''
             if len(company['credit_no']) > 0:
                 company_tab.insert_one(company)
+                r.hset(redis_key, sha1(title), title)
                 logger.info(f'>>> {title} - {current_url} - 采集成功 - 保存入库')
             else:
                 exception_count += 1  # 页面无企业数据
@@ -380,7 +381,6 @@ def crawl_spider(driver: Chrome, handler):
             driver.close()
             '''返回列表页'''
             driver.switch_to.window(handler)
-        r.hset(redis_key, sha1(title), title)
     else:
         return True