TAGS_CAN_BE_REMOVE_IF_EMPTY = ['section', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'span'] USELESS_TAG = [ 'style', 'script', 'link', 'video', 'iframe', 'source', 'picture', 'blockquote', 'input', 'footer', 'img', ] USELESS_ATTR = { 'share', 'contribution', 'copyright', 'copy-right', 'disclaimer', 'recommend', 'related', 'footer', 'foot', 'comment', 'hearder', 'social', 'submeta', 'report-infor', 'tfooter', 'logo', 'bottom', 'nav', 'top', 'position', 'location', 'page', 'navigation', } KEYWORDS = { '招标', '流标', '评标', '询价', '中标候选人', '抽签', '谈判', '中选', '意见征询', '更正公告', '废标', '补遗', '议价', '邀请', '资格预审', '竞标', '变更', '遴选', '磋商', '项目', '评审', '询比', '开标', '澄清', '比选', '中止', '采购', '竟价', '招投标', '拟建', '成交', '中标', '竞争性谈判', '工程', '验收公告', '更正', '单一来源', '变更公告', '合同', '违规', '评判', '监理', '竞价', '答疑', '终止', '系统' } FOOTER_TEXTS = {} PAGE_TEXTS = {'尾页', '下页', '下一页'} LOGIN_TEXTS = {'忘记密码', '登录', '注册'} NAV_TEXTS = {'政策', '办事指南', '首页', '党', '操作手册', '关于我们', '地图', '建议意见', '法律声明', '信箱', '网安备', }