猿问

Golang解析HTML,提取所有带有<body> </body>标签的内容

如标题所述。我需要返回 html 文档的 body 标签内的所有内容,包括任何后续的 html 标签等。我很想知道什么是最好的方法。我有一个 Gokogiri 包的工作解决方案,但是我试图远离任何依赖于 C 库的包。有没有办法用 go 标准库来完成这个?还是使用 100% 的包裹?


自从发布我的原始问题以来,我尝试使用以下没有解决问题的软件包。(这两个似乎都没有从正文内部返回后续子项或嵌套标签。例如:


<!DOCTYPE html>

<html>

    <head>

        <title>

            Title of the document

        </title>

    </head>

    <body>

        body content 

        <p>more content</p>

    </body>

</html>

将返回正文内容,忽略后续<p>标签和它们包装的文本):


pkg/encoding/xml/(标准库xml包)

golang.org/x/net/html

总体目标是获得如下所示的字符串或内容:


<body>

    body content 

    <p>more content</p>

</body>


烙印99
浏览 606回答 3
3回答
随时随地看视频慕课网APP

相关分类

Go
我要回答