如标题所述。我需要返回 html 文档的 body 标签内的所有内容,包括任何后续的 html 标签等。我很想知道什么是最好的方法。我有一个 Gokogiri 包的工作解决方案,但是我试图远离任何依赖于 C 库的包。有没有办法用 go 标准库来完成这个?还是使用 100% 的包裹?
自从发布我的原始问题以来,我尝试使用以下没有解决问题的软件包。(这两个似乎都没有从正文内部返回后续子项或嵌套标签。例如:
<!DOCTYPE html>
<html>
<head>
<title>
Title of the document
</title>
</head>
<body>
body content
<p>more content</p>
</body>
</html>
将返回正文内容,忽略后续<p>标签和它们包装的文本):
pkg/encoding/xml/(标准库xml包)
golang.org/x/net/html
总体目标是获得如下所示的字符串或内容:
<body>
body content
<p>more content</p>
</body>
相关分类