tools.go 3.6 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146
  1. package main
  2. import (
  3. "bytes"
  4. "fmt"
  5. "golang.org/x/net/html"
  6. "strings"
  7. )
  8. // CleanHTMLTags 处理HTML内容并返回清理后的文本
  9. func CleanHTMLTags(htmlContent string) (string, error) {
  10. // 解析HTML内容
  11. doc, err := html.Parse(strings.NewReader(htmlContent))
  12. if err != nil {
  13. return "", err
  14. }
  15. var buf bytes.Buffer
  16. // 递归函数,用来遍历 HTML 树
  17. var f func(*html.Node)
  18. f = func(n *html.Node) {
  19. // 处理文本节点
  20. if n.Type == html.TextNode {
  21. buf.WriteString(n.Data)
  22. }
  23. // 处理元素节点
  24. if n.Type == html.ElementNode {
  25. // 调试:输出当前节点的类型和标签名
  26. fmt.Printf("ElementNode: %s\n", n.Data)
  27. // 处理 <br> 标签,插入换行
  28. if n.Data == "br" {
  29. buf.WriteString("\n")
  30. } else if n.Data == "table" {
  31. // 处理表格标签 <table>
  32. //buf.WriteString("\nTable Start\n")
  33. for tr := n.FirstChild; tr != nil; tr = tr.NextSibling {
  34. if tr.Type == html.ElementNode && tr.Data == "tr" {
  35. //buf.WriteString("\nRow Start\n")
  36. // 遍历每行中的 <td> 单元格
  37. for td := tr.FirstChild; td != nil; td = td.NextSibling {
  38. if td.Data == "td" {
  39. buf.WriteString("[TD] ")
  40. f(td) // 递归处理 <td> 中的内容
  41. }
  42. }
  43. //buf.WriteString("\nRow End\n")
  44. }
  45. }
  46. //buf.WriteString("Table End\n")
  47. } else if n.Data == "ul" {
  48. // 处理无序列表 <ul>
  49. //buf.WriteString("\nList Start\n")
  50. for li := n.FirstChild; li != nil; li = li.NextSibling {
  51. if li.Data == "li" {
  52. buf.WriteString("- ")
  53. f(li)
  54. buf.WriteString("\n")
  55. }
  56. }
  57. //buf.WriteString("List End\n")
  58. }
  59. }
  60. // 遍历子节点
  61. for child := n.FirstChild; child != nil; child = child.NextSibling {
  62. f(child)
  63. }
  64. }
  65. // 启动递归遍历
  66. f(doc)
  67. // 去除多余空格
  68. trimmedText := strings.TrimSpace(buf.String())
  69. return trimmedText, nil
  70. }
  71. // CleanHTMLTags 用于提取HTML内容,保留段落格式(例如 <br/>),并处理表格等标签
  72. func CleanHTMLTags11(htmlContent string) (string, error) {
  73. // 解析HTML内容
  74. doc, err := html.Parse(strings.NewReader(htmlContent))
  75. if err != nil {
  76. return "", err
  77. }
  78. var buf bytes.Buffer
  79. var f func(*html.Node)
  80. // 遍历每个节点
  81. // 改进后的处理代码
  82. f = func(n *html.Node) {
  83. switch n.Type {
  84. case html.TextNode:
  85. // 处理文本节点,保留文本内容
  86. buf.WriteString(n.Data)
  87. case html.ElementNode:
  88. // 针对 <br/> 标签添加换行符
  89. if n.Data == "br" {
  90. buf.WriteString("\n")
  91. } else if n.Data == "p" {
  92. // 对 <p> 标签处理,增加换行符
  93. buf.WriteString("\n")
  94. } else if n.Data == "ul" {
  95. // 对 <ul> 列表元素进行处理,换行并处理每个 <li>
  96. for li := n.FirstChild; li != nil; li = li.NextSibling {
  97. if li.Data == "li" {
  98. buf.WriteString("- ")
  99. f(li)
  100. buf.WriteString("\n")
  101. }
  102. }
  103. } else if n.Data == "table" {
  104. // 处理表格结构,换行并处理每一行
  105. for tr := n.FirstChild; tr != nil; tr = tr.NextSibling {
  106. if tr.Type == html.ElementNode && tr.Data == "tr" {
  107. // 每一行之前先换行
  108. buf.WriteString("\n")
  109. // 对于每一行 <tr>,处理每个 <td>
  110. for td := tr.FirstChild; td != nil; td = td.NextSibling {
  111. if td.Data == "td" {
  112. f(td)
  113. buf.WriteString(" | ") // 分隔单元格
  114. }
  115. }
  116. buf.WriteString("\n") // 每行结束后换行
  117. }
  118. }
  119. }
  120. }
  121. // 递归遍历子节点
  122. for child := n.FirstChild; child != nil; child = child.NextSibling {
  123. f(child)
  124. }
  125. }
  126. // 开始解析
  127. f(doc)
  128. // 返回提取后的文本内容
  129. return buf.String(), nil
  130. }