哪个HTML解析器是最好的?
我编码了很多解析器。到目前为止,我一直在使用HtmlUnit无头浏览器进行解析和浏览器自动化。
现在,我想把这两个任务分开。
由于我80%的工作只涉及解析,所以我想使用一个简单的HTML解析器,因为在HtmlUnit中,首先加载一个页面,然后得到源代码,然后解析它,这需要很长时间。
我想知道哪个HTML解析器是最好的。如果它接近HtmlUnit解析器,解析器会更好。
编辑:
在最好的情况下,我至少需要以下特性:
- 速度
- 通过其“id”或“name”或“tag type”轻松定位任何HtmlElement。
如果它不清理脏的HTML代码,对我来说就没问题了。我不需要清理任何HTML源代码。我只需要一种最简单的方法来跨HtmlElement并从中获取数据。