手记

Python数据挖掘03-requests库

相比Python内置的urllib和urllib2库,第三方的requests库提供了更强大的网络请求功能,使用起来也更方便。
测试一下:

import requests  
resp = requests.get('http://baidu.com')
print resp.status_code
# 200

requests可以发送各种请求:

r = requests.post("http://httpbin.org/post")
r = requests.put("http://httpbin.org/put")
r = requests.delete("http://httpbin.org/delete")
r = requests.head("http://httpbin.org/get")
r = requests.options("http://httpbin.org/get")
GET请求

最基本的GET请求可以直接用get方法

r = requests.get("http://httpbin.org/get")

如果想要加参数,可以利用 params 参数

import requests
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print r.url

运行结果

http://httpbin.org/get?key2=value2&key1=value1

通过headers参数可以增加请求头中的headers信息

import requests
payload = {'key1': 'value1', 'key2': 'value2'}
headers = {'content-type': 'application/json'}
r = requests.get("http://httpbin.org/get", params=payload, headers=headers)
print r.url
POST请求

对于 POST 请求来说,一般需要为它增加一些参数。最基本的传参方法可以利用 data 这个参数。

import requests
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print r.text
代理

为requests套上一层代理的做法也非常简单:

import requests
proxies = {"https": "http://41.118.132.69:4433"}
r = requests.post("http://httpbin.org/post", proxies=proxies)
print r.text

Get、Post以及其他请求均可添加代理。

Cookies

如果一个响应中包含了cookie,那么我们可以利用 cookies 变量来获取:

import requests
url = 'http://example.com'
r = requests.get(url)
print r.cookies
print r.cookies['example_cookie_name']

另外可以利用 cookies 变量来向服务器发送 cookies 信息:

import requests
url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
print r.text
Session

以上的每次请求其实都是发起了一个新的请求,也就是相当于我们每个请求都用了不同的浏览器单独打开的效果。也就是它并不是指的一个会话,即使请求的是同一个网址。不在一个会话中,无法获取 cookies,那么在一些站点中,我们需要保持一个持久的会话怎么办呢?就像用一个浏览器逛淘宝一样,在不同的选项卡之间跳转,这样其实就是建立了一个长久会话。
服务器端通过session来区分不同的用户请求(浏览器会话),requests的会话对象是用来模拟这样的操作的,比如可以跨请求保持某些参数:就像你在访问微博的时候,不需要每次翻页都重新登录一次。

session = requests.Session()
session.post('http://test.cn/login', data={'user': 'user', 'pass': 'mypassword'})
# 登录成功则可以发布文章了
session.put('http://test.cn/new', data={'title': 'title of article', 'data': 'content'})

既然会话是一个全局的变量,那么我们肯定可以用来全局的配置了。

import requests
s = requests.Session()
s.headers.update({'x-test': 'true'})
r = s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
print r.text

通过 s.headers.update 方法设置了 headers 的变量。然后我们又在请求中设置了一个 headers,那么会出现什么结果?很简单,两个变量都传送过去了。
如果get方法传的headers 同样也是 x-test,它会覆盖掉原来的设置:

r = s.get('http://httpbin.org/headers', headers={'x-test': 'true'})

如果不想要全局配置中的一个变量,设置为 None 即可:

r = s.get('http://httpbin.org/headers', headers={'x-test': None})
响应内容

请求发送成功的话会得到HTTP response,那么如何提取里面的内容呢?
requests会自动对响应内容编码,所以就可以通过resp.text取出响应文本了。对于别等响应内容(文件、图片、...),则可以通过resp.content取出来。对于json内容,也可以通过resp.json()来取,或者采用如下的方法提取:

# resp.txt为json文件
jdict = json.loads(resp.text)
# 提取具体内容
pageSize = jdict["content"]["pageSize"]

参考文章

Python爬虫利器一之Requests库的用法
Python requests库介绍

3人推荐
随时随地看视频
慕课网APP