使用jsoup从body标签中提取innerHtml

我正在使用jsoup解析html并想要在body标签内提取innerHtml

到目前为止,我尝试并使用document.body.childern()。outerHtml; 但它只提供html元素并在正文内部跳过浮动文本(不包含在任何html标记内)

private String getBodyTag(final Document document) {
        return document.body().children().outerHtml();}

输入:

<!DOCTYPE html><html lang="de">
    <head>
        <META http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <link rel="stylesheet" type="text/css" href="assets/style.css">
    </head>
    <body>
       <div>questions to improve formatting and clarity.</div>
       <h3>Guided Mode</h3> 
       some sample raw/floating text    </body></html>

预期:

<div>questions to improve formatting and clarity.</div><h3>Guided Mode</h3> some sample raw/floating text

实际:

<div>questions to improve formatting and clarity.</div><h3>Guided Mode</h3>


拉风的咖菲猫
浏览 1214回答 2
2回答

小唯快跑啊

请使用这个:private&nbsp;String&nbsp;getBodyTag(final&nbsp;Document&nbsp;document)&nbsp;{ &nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;document.body().html();}

慕后森

您可以尝试返回document.body.innerHtml;,因此它会返回body标记内的所有内容,包括任何标记之外的文本。据我所知,你试图完成它的方式不起作用,因为“原始文本”不被视为孩子。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java