目标站点:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm获取内容:正文图片和文字说明;本人实现方法:因为分页地址是连续的,我是在目标地址上做循环http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm用get_headers访问后获取返回是否为200,是的话进行内容抓取1、curl获取当前地址html后,截取所需内容2、_2这个就是变量,自增后继续判断下一页是否可以访问,可以访问就继续采集以上是可以实现采集抓取的,但是好像速度很慢,而且每次都是curl去抓取对服务器貌似也有压力问题:如何改进,大家是如何用php做的抓取,求思路和方向
皈依舞
相关分类