过滤掉HTML标签并解析python中的实体

因为正则表达式使我感到恐惧，所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串解析HTML实体。

哆啦的时光机

浏览 311回答 3

3回答

达令说

使用lxml是最适合python的xml / html库。import lxml.htmlt = lxml.html.fromstring("...")t.text_content()如果只想清理html，请查看lxml.html.clean模块

白衣非少年

使用BeautifulSoup！这是完美的选择，您将收到可疑美德的标记，并且需要从中获取合理的信息。只需传入原始文本，提取所有字符串标签，然后将它们加入即可。

沧海一幻觉

尽管我同意Lucas的观点，正则表达式并不那么令人恐惧，但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准足够繁琐（尤其是如果您要任意分析从Internet删除的“ HTML”页面），则需要编写大量代码来处理特殊情况。似乎python开箱即用。您还应该检查TidyLib的python绑定，该绑定可以清除损坏的HTML，从而使任何HTML解析的成功率都更高。

随时随地看视频慕课网APP