过滤掉HTML标签并解析python中的实体

因为正则表达式使我感到恐惧,所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串解析HTML实体。


哆啦的时光机
浏览 238回答 3
3回答

达令说

使用lxml是最适合python的xml / html库。import lxml.htmlt = lxml.html.fromstring("...")t.text_content()如果只想清理html,请查看lxml.html.clean模块

白衣非少年

使用BeautifulSoup!这是完美的选择,您将收到可疑美德的标记,并且需要从中获取合理的信息。只需传入原始文本,提取所有字符串标签,然后将它们加入即可。

沧海一幻觉

尽管我同意Lucas的观点,正则表达式并不那么令人恐惧,但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准足够繁琐(尤其是如果您要任意分析从Internet删除的“ HTML”页面),则需要编写大量代码来处理特殊情况。似乎python开箱即用。您还应该检查TidyLib的python绑定,该绑定可以清除损坏的HTML,从而使任何HTML解析的成功率都更高。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python