data_spider
/
topic_spider


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181
							import threading
import time
from typing import List, Mapping

from common.databases import insert_one, int2long
from common.log import logger
from common.tools import delay_by
from crawler.Task import Task
from crawler.analysis import Parser
from crawler.download import Downloader
from crawler.schedule import Scheduler
from crawler.utils import (
    extract_domain,
    is_url,
)
from crawler.validate import Validator
from settings import (
    MGO_LUA_SPIDERS,
    MGO_URLS,
    MGO_ORGS,
    MGO_KEYWORDS,
    MGO_COMPETING_GOODS,
    MGO_REMOVAL_DUPLICATE,
    MGO_DOMAIN,
    MGO_QUERY,
    MGO_RECORDS
)


class BasicSearch:

    def __init__(
            self,
            keyword_weight=9,
            url_weight=8,
            org_weight=7,
            scheduler=None,
            validator=None,
            downloader=None,
            parser=None,
            **kwargs
    ):
        self.scheduler = (scheduler or Scheduler())
        self.validator = (validator or Validator(redis_key='RemovalDuplicate_'))
        self.downloader = (downloader or Downloader())
        self.parser = (parser or Parser())
        # mongo查询
        self.query = {'enable_added': {'$exists': False}}
        self.projection = {'name': 1}
        self.sort = [('_id', -1)]
        # 分类
        self.visit_classify = 'visit'
        self.query_classify = 'query'
        # 权重
        self.org_weight = org_weight
        self.url_weight = url_weight
        self.keyword_weight = keyword_weight
        self.retrieve_weight = 0
        # 归属组
        self.org_groups = 'organization'
        self.keyword_groups = 'keyword'
        self.url_groups = 'seed_url'
        self.competing_groups = 'competing_goods'

    @staticmethod
    def loops_interval(interval):
        t_name = threading.currentThread().getName()
        next_run_time = delay_by((interval or 300))
        logger.debug(f'线程运行结束:<{t_name}>,下次运行时间:{next_run_time}')
        time.sleep(interval)

    @staticmethod
    def make_task(**kwargs):
        """生成Task对象"""
        return Task(**kwargs)

    @staticmethod
    def make_retrieve_item(task: Task):
        item = {
            'name': task['name'],
            'url': task['url'],
            'domain': task['domain'],
            'origin': task['origin'],
            'groups': task['groups'],
            'create_at': task['create_at'],
            'update_at': task['update_at'],
        }
        return item

    @staticmethod
    def make_duplicate_removal(task: Task):
        item = {
            'domain': task['domain'],
            'origin': task['origin'],
            'create_at': task['update_at'],
        }
        return item

    def _push_data(self, purpose: str, task: Task, collection):
        if purpose == 'save':
            insert_one(collection, self.make_retrieve_item(task))
        elif purpose == 'remove':
            insert_one(collection, self.make_duplicate_removal(task))
        else:
            insert_one(collection, task)

    def push_remove(self, task: Task):
        """数据去重的垃圾表"""
        logger.info(f"[上传去重特征]【{task['name']} - {task['url']}】")
        self._push_data('remove', task, MGO_REMOVAL_DUPLICATE)

    def push_domain(self, task: Task):
        """挖掘网站的查询结果"""
        logger.info(f"[推送挖掘结果]【{task['name']} - {task['domain']}】")
        self._push_data('save', task, MGO_DOMAIN)

    def push_query(self, task: Task):
        """搜索组织单位查询结果"""
        logger.info(f"[推送查询结果]【{task['name']} - {task['url']}】")
        self._push_data('save', task, MGO_QUERY)

    def push_records(self, task: Task):
        """挖掘数据的记录"""
        logger.info(f"[推送数据记录]【{task['name']} - {task['url']}】")
        self._push_data('records', task, MGO_RECORDS)

    def seed_orgs(self) -> List[Mapping]:
        """组织|单位"""
        search_orgs = []
        cursor = MGO_ORGS.find(self.query, projection=self.projection)
        for item in cursor.sort(self.sort):
            search_orgs.append(item)
        return search_orgs

    def seed_keywords(self):
        """关键词"""
        search_keywords = []
        cursor = MGO_KEYWORDS.find(projection=self.projection)
        for item in cursor.sort(self.sort):
            search_keywords.append(item['name'])
        return search_keywords

    def seed_urls(self) -> List[Mapping]:
        """种子urls"""
        search_urls = []
        cursor = MGO_URLS.find(self.query, projection=self.projection)
        for item in cursor.sort(self.sort):
            search_urls.append(item)
        return search_urls

    def seed_competing_goods(self):
        """竞品urls"""
        competing_goods = []
        cursor = MGO_COMPETING_GOODS.find(self.query, projection=self.projection)
        for item in cursor.sort(self.sort):
            competing_goods.append(item)
        return competing_goods

    def lua_common_domains(self):
        """从lua采集爬虫配置表获取网站名称与对应域名，同步到去重库"""
        parm_commons = []
        projection = {'param_common': 1}
        cursor = MGO_LUA_SPIDERS.find(projection=projection)
        for item in cursor.sort(self.sort):
            # name = item['param_common'][1]
            try:
                url = item['param_common'][11]
                if not is_url(url):
                    continue
                domain = extract_domain(url)
            except IndexError:
                continue
            if not self.validator.data(domain):
                parm_commons.append({
                    # 'name': name,
                    'domain': domain,
                    'origin': url,
                    'create_at': int2long(int(time.time()))
                })
                self.validator.add_data(domain)
        return parm_commons