123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384 |
- import re
- def clean_html(html_str):
- """HTML 替换"""
- patterns = {
- '<!--.*?-->': '',
- '"': "'",
- '\n': '',
- '\xa0': "",
- '<span .*?>': '',
- '<link .*?>': '',
- '</span> ': '',
- '</span>': '',
- '<span>': '',
- '<p.*?>': '<br>',
- '</p>': '<br>',
- '<div>': '<br>',
- '<div .*?>': '<br>',
- '</div>': '<br>',
- '<img .*?>': '<br>',
- '<style.*?</style>': '',
- '<EpointForm>': '',
- '<html.*?</head>': '',
- '<!DOCTYPE.*?>': '',
- '</meta>': '',
- '<?xml:.*?>': '',
- '<label.*?>': '<br>',
- '</label>': '',
- 'style=".*?"': '',
- "style='.*?'": '',
- 'class=".*?"': '',
- "class='.*?'": '',
- "align='.*?'": '',
- 'align=".*?"': '',
- 'border=".*?"': '',
- "border='.*?'": '',
- 'cellpadding=".*?"': '',
- "cellpadding='.*?'": '',
- 'cellspacing=".*?"': '',
- "cellspacing='.*?'": '',
- 'center=".*?"': '',
- "center='.*?'": '',
- 'width=".*?"': '',
- "width='.*?'": '',
- "bordercolor='.*?'": '',
- 'bgcolor=".*?"': '',
- 'BORDERCOLOR=".*?"': '',
- '<a name=".*?">': '',
- '<o:p>': '',
- '</o:p>': '',
- '<A name=.*?>': '',
- '<a .*?>': '',
- '</a>': '',
- '<font .*?>': '',
- '</font>': '',
- '<body.*?>': '',
- '</body>': '',
- '<script.*?>': '',
- '</script>': '',
- '【关闭】': '',
- '【打印】': '',
- '若附件无法下载,你可以尝试使用360极速浏览器进行下载!': '',
- }
- all_tag = re.findall("<[^>]+>", html_str)
- for tag in all_tag:
- html_str = html_str.replace(tag, str(tag).lower())
- repl_str = [
- '中国采购与招标网',
- '采购与招标网',
- 'www.chinabidding.com.cn',
- 'www.chinabidding.cn'
- ]
- for repl in repl_str:
- html_str = re.sub(repl, '___', html_str, re.S | re.M)
- def substitutes(k, v, c):
- return re.sub(k, v, c)
- for k, v in patterns.items():
- html_str = re.sub(k, v, substitutes(k, v, html_str), re.S, re.M)
- return html_str
|