1 步骤
第一可以先找几个提供免费测IP代理的网站,获取到可以使用的IP资源
第二验证对应的IP代理访问出口IP是不是跟本机的出口IP保持一致,得到的不一致的IP代理列表
第三根据自身的实验目的验证IP代理的相应速度,进行排序,择优选用
2. 具体做法
第一上网搜索IP代理,例如芝麻代理,快代理,犀牛代理等等
第二可以这里进行验证
第三这个就根据自身爬虫的需要,看是下载东西还是其他的,再进一步测试速度
3 代码
View Code
关于这份代码,有几个地方做一下说明:
· check_a_ip(ip):该函数为IP代理检查函数,返回两个值(一个为访问请求是否成功使用了代理,一个为检查的响应时间)
· start_page、end_page: 手动输入获取IP代理的网页页码,这个需要根据具体网站设定
· for i in range(int(start_page), int(end_page) + 1):主函数的循环,遍历设定范围的网页
· for tr in trs[1:len(trs)]:循环遍历并解析出一个网页中的所有IP代理,以及检验是否可用
· ip_proxy_file:文本写入,最终把结果都写入proxy.txt中
4 拓展
本实验可以采用多线程进行爬取或者检验,这样的爬取速率会快很多,大家有时间可以尝试一下