继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

如何爬取可用的IP代理

慕容4841595
关注TA
已关注
手记 20
粉丝 1
获赞 12


1 步骤

   第一可以先找几个提供免费测IP代理的网站,获取到可以使用的IP资源

   第二验证对应的IP代理访问出口IP是不是跟本机的出口IP保持一致,得到的不一致的IP代理列表

  第三根据自身的实验目的验证IP代理的相应速度,进行排序,择优选用

2. 具体做法

 第一上网搜索IP代理,例如芝麻代理,快代理,犀牛代理等等

 第二可以这里进行验证

 第三这个就根据自身爬虫的需要,看是下载东西还是其他的,再进一步测试速度

3 代码

  View Code

 

关于这份代码,有几个地方做一下说明:

· check_a_ip(ip):该函数为IP代理检查函数,返回两个值(一个为访问请求是否成功使用了代理,一个为检查的响应时间)

· start_page、end_page: 手动输入获取IP代理的网页页码,这个需要根据具体网站设定

· for i in range(int(start_page), int(end_page) + 1):主函数的循环,遍历设定范围的网页

· for tr in trs[1:len(trs)]:循环遍历并解析出一个网页中的所有IP代理,以及检验是否可用

· ip_proxy_file:文本写入,最终把结果都写入proxy.txt中

4 拓展

本实验可以采用多线程进行爬取或者检验,这样的爬取速率会快很多,大家有时间可以尝试一下

本文由犀牛代理IP转载

 


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP