defaults.py 4.0 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091
  1. # -*- coding: utf-8 -*-
  2. TAGS_CAN_BE_REMOVE_IF_EMPTY = ['section', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'span']
  3. USELESS_TAG = [
  4. 'style',
  5. 'script',
  6. 'link',
  7. 'video',
  8. 'iframe',
  9. 'source',
  10. 'picture',
  11. 'blockquote',
  12. 'input',
  13. 'footer',
  14. 'img',
  15. ]
  16. USELESS_ATTR = {
  17. 'share',
  18. 'contribution',
  19. 'copyright',
  20. 'copy-right',
  21. 'disclaimer',
  22. 'recommend',
  23. 'related',
  24. 'footer',
  25. 'foot',
  26. 'comment',
  27. 'hearder',
  28. 'social',
  29. 'submeta',
  30. 'report-infor',
  31. 'tfooter',
  32. 'logo',
  33. 'bottom',
  34. 'nav',
  35. 'top',
  36. 'position',
  37. 'location',
  38. 'page',
  39. 'navigation',
  40. }
  41. # 需要被过滤掉的词组
  42. VOID_WORDS = {
  43. '供应商登录', '流程', '登录', '下载', '管理局', '管理人员', '网', '采购人',
  44. '协会', '帮助', '公司', '分类', '采购目录', '网站', '采购商', '说明',
  45. '代理机构', '服务平台', '考核', '操作', '规定', '采购指南', '专家'
  46. }
  47. # 需要保留的关键信息
  48. VALID_WORDS = {
  49. '竞标', '拟建', '管输', '国土', '疫苗', '拦标', '矿权', '协议', '答疑', '进出口产品', '林权',
  50. '项目', '排污权', '开标', '矿业', '违规', '资源', '中标候选人', '机电设备', '协议供货', '中止', '合同',
  51. '中选', '碳排放权', '行政处罚', '省本级', '竞价', '处罚', '中标', '企业增资', '系统', '招租', '发包',
  52. '比选', '市级', '决定', '新闻中心', '省级', '经营权', '乡镇', '自然资源', '土地使用权', '最高限价', '更正',
  53. '异常', '投诉', '废标', '变更', '询比', '交通', '资格审查', '资格预审', '招标', '产权', '工程',
  54. '监督检查', '租赁', '政府采购', '抽签', '控制价', '转让', '入围', '国有产权', '竞争性', '征求', '结果',
  55. '需求', '遴选', '成交', '耗材', '使用权', '劳务', '交易', '候选人', '交易进程', '机械', '网上商城',
  56. '验收', '评判', '服务', '定标结果', '出让', '债券', '履约', '澄清', '标前公告', '采购', '更正公告',
  57. '评审', '分包', '土地', '药品', '流标', '招投标', '水利', '公告信息', '货物', '建设', '未入围',
  58. '审批核准', '市本级', '预中标', '出让公告', '电子卖场', '意见征询', '网上竞价', '意见', '拟批准',
  59. '监理', '终止', '磋商', '征集', '评标', '其他', '资格入围', '单一来源', '土矿权', '煤炭',
  60. '医药器械', '房屋', '验收公告', '补遗', '议价', '变更公告', '终(中)止', '批量采购', '暂停', '复审', '资产',
  61. '邀请', '通知公告', '备案', '询价', '谈判', '中小企业', '分散采购', '中(终)止', '购买', '竟价',
  62. '竞争性谈判', '定点', '耕地', '拍卖公告', '物资', '省', '市', '县/区',
  63. }
  64. # 页面文本内容检索词
  65. PAGE_TEXT_CHECK_WORDS = {
  66. '招标', '流标', '评标', '询价', '中标候选人', '抽签', '谈判', '中选', '意见征询',
  67. '更正公告', '废标', '补遗', '议价', '邀请', '资格预审', '竞标', '变更', '遴选',
  68. '磋商', '项目', '评审', '询比', '开标', '澄清', '比选', '中止', '采购', '竟价',
  69. '招投标', '拟建', '成交', '中标', '竞争性谈判', '工程', '验收公告', '更正',
  70. '单一来源', '变更公告', '合同', '违规', '评判', '监理', '竞价', '答疑',
  71. '终止', '系统'
  72. }
  73. # 页面文本内容过滤词
  74. PAGE_TEXT_FILTER_WORDS = {
  75. '基金', '保险', '通知', '面试', '进入', '律师事务所', '征求', '课题申报', '。',
  76. '影视项目', '习近平', '主席', '领导人', '建党', '组织', '首个', '正式启动', '必填',
  77. '代表队', '!', '表彰'
  78. }
  79. FOOTER_TEXTS = {}
  80. PAGE_TEXTS = {'尾页', '下页', '下一页'}
  81. LOGIN_TEXTS = {'忘记密码', '登录', '注册'}
  82. NAV_TEXTS = {
  83. '政策', '办事指南', '首页', '党', '操作手册', '关于我们', '地图',
  84. '建议意见', '法律声明', '信箱', '网安备', '意见反馈', '客户服务', 'VIP服务'
  85. }