在Python中验证(X)HTML

验证文档是否遵循某种版本的HTML(最好是我可以指定)的最佳方法是什么?我希望能够知道失败的发生位置,例如在基于Web的验证器中,但在本机Python应用程序中除外。


POPMUISE
浏览 158回答 3
3回答

小唯快跑啊

XHTML很简单,请使用lxml。from lxml import etreefrom StringIO import StringIOetree.parse(StringIO(html), etree.HTMLParser(recover=False))HTML更加困难,因为传统上对HTML人群的验证没有那么大的兴趣(通过验证器yikes运行StackOverflow本身)。最简单的解决方案是执行诸如nsgmls或OpenJade之类的外部应用程序,然后解析其输出。

拉丁的传说

PyTidyLib是HTML Tidy的一个不错的python绑定。他们的例子:from tidylib import tidy_documentdocument, errors = tidy_document('''<p>f&otilde;o <img src="bar.jpg">''',&nbsp; &nbsp; options={'numeric-entities':1})print documentprint errors而且,它与旧的HTML Tidy和新的tidy-html5都兼容。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python