美丽汤抓取可见网页文本

美丽汤抓取可见网页文本

基本上,我想用美丽的汤严格地抓住可见文本在网页上。例如,本网页是我的测试用例。我主要想要的是正文(文章),甚至还有几个标签名。我已经尝试过这方面的建议了。所以问题返回大量的<script>标签和html注释,我不想要。我不知道函数需要什么参数findAll()为了在网页上看到可见的文本。

那么,我应该如何找到所有可见的文本,不包括脚本,评论,CSS等?


HUWWW
浏览 565回答 3
3回答

qq_遁去的一_1

批准的答案对我不起作用。str()函数调用引发异常,因为它不能对BeautifulSoup元素中的非ascii字符进行编码。下面是一种将示例网页过滤为可见文本的更简洁的方法。html&nbsp;=&nbsp;open('21storm.html').read()soup&nbsp;=&nbsp;BeautifulSoup(html)[s.extract()&nbsp;for&nbsp;s&nbsp;in&nbsp;soup(['style',&nbsp;'script',&nbsp;'[document]',&nbsp;'head',&nbsp;'title'])] visible_text&nbsp;=&nbsp;soup.getText()
打开App,查看更多内容
随时随地看视频慕课网APP