猿问

爬虫如何抓取网站下拉动态加载的内容。

写一个java的小爬虫程序,爬知乎的一些内容。

知乎的关注者列表,页面拉到底加载更多的一些联系人

ajax实现,我ajax并不是很懂。

现在我想获得这部分新加载的数据,如何获取,

很多答案就是分析http,找到这个ajax的请求地址这样泛泛地回答,等等等等

我想知道如何分析,如果讲很麻烦,希望可以提供一些详细的资料,

或者有一些类似的程序示例。谢谢

长风秋雁
浏览 1043回答 6
6回答

明月笑刀无情

第二次提这个问题了,我问你知道 HTTP 不,你也不说。就你这个需求很言,理解 HTTP 协议,理解 WEB 程序原理,理解浏览器原理,足够你写出程序了。

德玛西亚99

下载一个Fiddler2,安装后打开,再开启浏览器,你就会发现所有的请求都会显示在这个软件里了。点击右边部分的Inspectors标签,就可以看到提交和服务端响应的数据内容了。

扬帆大鱼

说句实话,你的要求已经超出了普通网友能帮忙的程度了。 教一个学生一个月,学生还得够努力够智商,够呛能完成你目前的要求吧。

慕斯709654

其实我也知道我差的很多,我也没想一口吃个胖子。 我现在有点像没头的苍蝇,感觉这里也要学哪里也要学,但是不知道学的这些东西对这个项目是否是必要的。 比如我是不是真的要学会写一个ajax样式的网站,还是只要理解其中的原理就行。 能不能告诉我,完成这个工作需要哪些技术?学的先后次序是什么? 麻烦了。

临摹微笑

用程序把该网页内容下载下来转成字符串,再用正则表达式匹配对应的联系人和邮箱。

撒科打诨

先学会抓包分析http(s)请求和响应,然后定位到ajax异步请求动态加载部分,分析请求头、请求参数等,你再构造报文模拟ajax请求或者直接后台http请求拿到响应数据。
随时随地看视频慕课网APP

相关分类

Java
我要回答