刮Google财经(BeautifulSoup)

刮Google财经(BeautifulSoup)

我正在尝试抓取Google财经,并获取“相关股票”表,该表基于Chrome中的网页检查器具有id“ cc-table”和类“ gf-table”。(示例链接:https : //www.google.com/finance?q=tsla

但是当我运行.find(“ table”)或.findAll(“ table”)时,此表不会显示。我可以在Python的HTML内容中找到带有表内容的JSON对象,但不知道如何获取它。有任何想法吗?


沧海一幻觉
浏览 513回答 3
3回答

当年话下

大多数网站所有者不喜欢刮板程序,因为它们会收集公司价值的数据,用尽整个服务器的时间和带宽,却一无所获。像Google这样的大公司可能会让整个团队采用多种方法来检测和阻止试图抓取其数据的机器人。有几种解决方法:从另一个安全性较低的网站上进行抓取。查看Google或其他公司是否具有供公众使用的API。使用像Selenium这样的更高级的抓取工具(并且可能仍被Google阻止)。

慕后森

在我的示例中,我展示了使用Dryscrape,使用QtWebKit和PyQt5以及硒的方法,您可以分别使用所有三个示例。Dryscrape是我的最爱,但不能在Windows上运行PyQt5是我的下一个最爱,但我发现Selenium很笨重。这里有3个示例,我希望其中一个示例还有其他结帐scrapy-splash。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python