猿问
过滤掉HTML标签并解析python中的实体
因为正则表达式使我感到恐惧,所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串解析HTML实体。
哆啦的时光机
浏览 238
回答 3
3回答
达令说
使用lxml是最适合python的xml / html库。import lxml.htmlt = lxml.html.fromstring("...")t.text_content()如果只想清理html,请查看lxml.html.clean模块
0
0
0
白衣非少年
使用BeautifulSoup!这是完美的选择,您将收到可疑美德的标记,并且需要从中获取合理的信息。只需传入原始文本,提取所有字符串标签,然后将它们加入即可。
0
0
0
沧海一幻觉
尽管我同意Lucas的观点,正则表达式并不那么令人恐惧,但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准足够繁琐(尤其是如果您要任意分析从Internet删除的“ HTML”页面),则需要编写大量代码来处理特殊情况。似乎python开箱即用。您还应该检查TidyLib的python绑定,该绑定可以清除损坏的HTML,从而使任何HTML解析的成功率都更高。
0
0
0
随时随地看视频
慕课网APP
相关分类
Python
我要回答