与 ajax 一起使用的网络爬虫/爬虫

我需要抓取一个站点并从中获取所有链接,问题是 - 该站点使用 ajax,而 Go 的标准 http.Get(..) 将返回如下内容:


 <body>

    //javascript here       

     <div class="content"></div>

    //javascript here

 </body>

Div 为空。golang有什么解决方案吗?


largeQ
浏览 154回答 2
2回答

跃然一笑

您必须使用无头 Web 浏览器之一。在没有检查的情况下,我说其余三个浏览器引擎(Webkit/Firefox,IE)没有 Go 绑定。切换到 python 和 javascript。

蛊毒传说

http.Get(Url) 只是获取 Url 的响应。resp.Content 是这样的:<body>//javascript here&nbsp; &nbsp; &nbsp; &nbsp;&nbsp;<div class="content"></div>//javascript here</body>如果你想获取div中的内容,你需要分析javascript并知道ajax如何获取数据。然后你可以模拟过程得到你想要的。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Go