Forráskód Böngészése

数据去重只有在入库之后,才会添加redis去重

萤火也是火 3 éve
szülő
commit
c94b3e3ddb
1 módosított fájl, 1 hozzáadás és 1 törlés
  1. 1 1
      jzsc/spider.py

+ 1 - 1
jzsc/spider.py

@@ -371,6 +371,7 @@ def crawl_spider(driver: Chrome, handler):
             '''保存企业数据'''
             if len(company['credit_no']) > 0:
                 company_tab.insert_one(company)
+                r.hset(redis_key, sha1(title), title)
                 logger.info(f'>>> {title} - {current_url} - 采集成功 - 保存入库')
             else:
                 exception_count += 1  # 页面无企业数据
@@ -380,7 +381,6 @@ def crawl_spider(driver: Chrome, handler):
             driver.close()
             '''返回列表页'''
             driver.switch_to.window(handler)
-        r.hset(redis_key, sha1(title), title)
     else:
         return True