HTML抓取选项?

HTML抓取选项?

我在考虑尝试美汤,一个用于HTML抓取的Python包。还有其他HTML抓取包我应该看看吗?Python不是必需的,我也对其他语言感兴趣。

到目前为止的故事:


慕码人2483693
浏览 622回答 3
3回答

动漫人物

红宝石世界相当于美丽的汤是为什么_幸运_刚性的杏子.

开心每一天1111

BeautifulSoup是HTML抓取的好方法。我以前的工作让我干了很多苦差事,我希望在我开始工作的时候,我就知道“美丽汤”的事了。它就像DOM,有很多有用的选项,而且更多的是pythonic。如果你想尝试Ruby,他们会移植BeautifulSoup,称之为RubyfulSoup,但它已经有一段时间没有更新了。其他有用的工具是HTMLParser或sgmllib.SGMLParser,它们是标准Python库的一部分。每次您输入/退出标记并遇到html文本时,都会调用方法来完成这些工作。如果你熟悉的话他们就像Expat。如果要解析非常大的文件,并且创建DOM树需要花费很长时间,那么这些库尤其有用。正则表达式并不是非常必要的。BeautifulSoup处理正则表达式,因此如果您需要它们的功能,您可以在那里使用它。我说去吧,除非你需要速度和更小的内存足迹。如果您在Python上找到了更好的HTML解析器,请告诉我。
打开App,查看更多内容
随时随地看视频慕课网APP