手记

如何爬取可用的IP代理

如何爬取可用的IP代理

1 步骤

   第一可以先找几个提供免费测IP代理的网站,获取到可以使用的IP资源

   第二验证对应的IP代理访问出口IP是不是跟本机的出口IP保持一致,得到的不一致的IP代理列表

  第三根据自身的实验目的验证IP代理的相应速度,进行排序,择优选用

2. 具体做法

 第一上网搜索IP代理,例如芝麻代理,快代理,犀牛代理等等

 第二可以这里进行验证

 第三这个就根据自身爬虫的需要,看是下载东西还是其他的,再进一步测试速度

3 代码

  View Code

 关于这份代码,有几个地方做一下说明:

· check_a_ip(ip):该函数为IP代理检查函数,返回两个值(一个为访问请求是否成功使用了代理,一个为检查的响应时间)

· start_page、end_page: 手动输入获取IP代理的网页页码,这个需要根据具体网站设定

· for i in range(int(start_page), int(end_page) + 1):主函数的循环,遍历设定范围的网页

· for tr in trs[1:len(trs)]:循环遍历并解析出一个网页中的所有IP代理,以及检验是否可用

· ip_proxy_file:文本写入,最终把结果都写入proxy.txt中

4 拓展

本实验可以采用多线程进行爬取或者检验,这样的爬取速率会快很多,大家有时间可以尝试一下


0人推荐
随时随地看视频
慕课网APP