美丽汤抓取可见网页文本

基本上，我想用美丽的汤严格地抓住可见文本在网页上。例如,本网页是我的测试用例。我主要想要的是正文(文章)，甚至还有几个标签名。我已经尝试过这方面的建议了。所以问题返回大量的<script>标签和html注释，我不想要。我不知道函数需要什么参数findAll()为了在网页上看到可见的文本。

那么，我应该如何找到所有可见的文本，不包括脚本，评论，CSS等？

HUWWW

浏览 621回答 3

3回答

qq_遁去的一_1

批准的答案对我不起作用。str()函数调用引发异常，因为它不能对BeautifulSoup元素中的非ascii字符进行编码。下面是一种将示例网页过滤为可见文本的更简洁的方法。html = open('21storm.html').read()soup = BeautifulSoup(html)[s.extract() for s in soup(['style', 'script', '[document]', 'head', 'title'])] visible_text = soup.getText()

0 0

随时随地看视频慕课网APP