手记

如何使用python抓取最新房价数据

太吓人了,完全没有想到县城的房价也能突破2万元大关,还以为突破1万已经是极限。根据发布数据我国已经有8个县城的房价已经突破了2万元大关,这简直是把我惊了一跳,因为县城的产业相对来说比较单一,年轻人都想往大城市流。

所以说很多时候县城的房价能够突破1万元大关,已经是非常不得了了,更何况还要面临下跌的风险。

但怎么也没想到,我国居然已经有了8个县城的房价,突破了2万元的关,这着实让人惊呆了。

这里我们就可以通过 Python 把最近的房价数据抓取下来进行分析看下最近房价的趋势是什么样的。一般我们在抓取网站时,为了应对网站的反爬机制,我们会把请求的头信息进行封装处理,除了上面配置请求头外,如果你用相同的 IP 大量请求抓取时,很可能会被封 IP,被封后再用这个 IP 请求网站时,会提示你请求超时,为避免被封最好我们通过代理 IP 去抓取,这里推荐亿牛云的隧道IP,使用方式如下所示:

 #! -*- encoding:utf-8 -*-    import requests    import random    # 要访问的目标页面    targetUrl = "http://httpbin.org/ip"    # 要访问的目标HTTPS页面    # targetUrl = "https://httpbin.org/ip"    # 代理服务器(产品官网 www.16yun.cn)    proxyHost = "t.16yun.cn"    proxyPort = "31111"    # 代理验证信息    proxyUser = "username"    proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {        "host" : proxyHost,        "port" : proxyPort,        "user" : proxyUser,        "pass" : proxyPass,    }    # 设置 http和https访问都是用HTTP代理    proxies = {        "http"  : proxyMeta,        "https" : proxyMeta,    }    #  设置IP切换头    tunnel = random.randint(1,10000)    headers = {"Proxy-Tunnel": str(tunnel)}    resp = requests.get(targetUrl, proxies=proxies, headers=headers)    print resp.status_code    print resp.text

好了,做好以上准备,我们就可以直接批量爬取全国各地的新房数据,并保存到本地偶后再进行分析。本文为大家介绍了如何通过 Python 将房产网上的新房数据批量抓取下来,然后就可以将每天抓取的结果跟历史数据进行对比分析,来判断楼市的


0人推荐
随时随地看视频
慕课网APP