defaults.py 1.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657
  1. TAGS_CAN_BE_REMOVE_IF_EMPTY = ['section', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'span']
  2. USELESS_TAG = [
  3. 'style',
  4. 'script',
  5. 'link',
  6. 'video',
  7. 'iframe',
  8. 'source',
  9. 'picture',
  10. 'blockquote',
  11. 'input',
  12. 'footer',
  13. 'img',
  14. ]
  15. USELESS_ATTR = {
  16. 'share',
  17. 'contribution',
  18. 'copyright',
  19. 'copy-right',
  20. 'disclaimer',
  21. 'recommend',
  22. 'related',
  23. 'footer',
  24. 'foot',
  25. 'comment',
  26. 'hearder',
  27. 'social',
  28. 'submeta',
  29. 'report-infor',
  30. 'tfooter',
  31. 'logo',
  32. 'bottom',
  33. 'nav',
  34. 'top',
  35. 'position',
  36. 'location',
  37. 'page',
  38. 'navigation',
  39. }
  40. KEYWORDS = {
  41. '招标', '流标', '评标', '询价', '中标候选人', '抽签', '谈判', '中选', '意见征询',
  42. '更正公告', '废标', '补遗', '议价', '邀请', '资格预审', '竞标', '变更', '遴选',
  43. '磋商', '项目', '评审', '询比', '开标', '澄清', '比选', '中止', '采购', '竟价',
  44. '招投标', '拟建', '成交', '中标', '竞争性谈判', '工程', '验收公告', '更正',
  45. '单一来源', '变更公告', '合同', '违规', '评判', '监理', '竞价', '答疑',
  46. '终止', '系统'
  47. }
  48. FOOTER_TEXTS = {'网安备', '关于我们', '地图', '建议意见', '法律声明', '信箱'}
  49. CATEGORY_TEXTS = {'政策', '办事指南', '首页', '党'}
  50. PAGE_TEXTS = {'尾页', '下页', '下一页'}
  51. LOGIN_TEXTS = {'忘记密码', '登录', '注册'}