Scrapy抓取新闻

最近使用scrapy抓取新浪智能家居新闻(http://tech.sina.com.cn/smart/),该新闻是动态生成的,请问使用什么办法可以抓取到。

德玛西亚99
浏览 516回答 3
3回答

蛊毒传说

爬虫对于ajax的内容处理确实是个问题啊, 可以自己用pywebkit引擎做一个,调用里面的js引擎处理那些动态生成的内容,但是难度有点高, 另一个方法是找到ajax请求的接口,然后自己构造请求读取数据 然后处理返回的数据 一般都是json格式。个人觉得第二种方法更简便一点

12345678_0001

做通用采集工具,还是用浏览器内核等待页面加载完成再采集吧 phantomjs不错的当然这样性能肯定没定制开发好

牧羊人nacy

请问python社区在哪里?哥新手学scrapy,例子入门估计已经卡一大半人第一个例子问题我算是搞定了,但是第二个问题马上来了我想爬了这个网页,再根据这个网页的链接爬另外一个网页,怎么做?哪里有人回答这些问题,或者方向(python语法和执行框架不懂也
打开App,查看更多内容
随时随地看视频慕课网APP