前言

我们要做的是自己动手，爬取58同城上的租房网站信息，然后用该数据预测未知的房源价格。

源码涉及到三个部分，机器学习，web前端和爬虫。

预测主要是使用回归预测，预测结果比较简单，通过这个项目来简单地学习一下基于Python的回归预测。

在本文中，实现了三种回归预测算法：

1. 支持向量回归(SVR)

2. logistic回归

3. 以及使用核技巧的岭回归(L2回归)

实现过程

项目的完整代码上传到github中，该部分的实现在这里：

https://github.com/TomorrowIsBetter/crawler/tree/master/price_prediction

这个目录中的index.csv 文件就是爬出到的部分文件数据。我们可以直接来看下文件的格式：

_id,date,areas,square,methods,price,direction,type,houseAreas
http://cc.58.com/zufang/34009015301200x.shtml,1.53E+12,0,190,1,20000,0,4室2厅2卫,中信城(别墅)
http://cc.58.com/zufang/33977466998861x.shtml,1.53E+12,0,190,1,20000,0,4室2厅2卫,中信城(别墅)
http://cc.58.com/zufang/32214749419981x.shtml,1.53E+12,5,400,1,15000,0,4室3厅3卫,融创上城
http://cc.58.com/zufang/34129082983861x.shtml,1.53E+12,0,500,1,15000,0,5室3厅2卫,中海莱茵东郡

由于58同城在一线城市，例如北京，一般没有人在这上面租房和发布房源，数据大多数都是来源于中介。但是58在二三线城市的可用性还是不错的，所以这里面数据抓取的是国内某二三线城市中的数据。

模型训练

算法是统计学习方法，使用基于Python语言的scikit-learn库来实现。部分代码如下：

def normalization(data,tag=""):
mean = data.mean()
maximum = data.max()
minimum = data.min()
print(tag,mean,maximum,minimum)
return (data - mean) / (maximum - minimum)

df = pandas.read_csv("index.csv")
df = shuffle(df)
df = shuffle(df)
square = df['square'].values
square = normalization(square)
areas = df['areas'].values / 5
direction = df['direction'].values / 4
price = df['price'].values
#price = normalization(price)

print(areas.shape,square.shape,direction.shape)
data = np.array([areas,square,direction])
data = data.T
train_fraction = .8
train_number = int(df.shape[0] * train_fraction)
X_train = data[:train_number]
X_test = data[train_number:]
y_train = price[:train_number]
y_test = price[train_number:]
print(np.max(price))
# model
clf = GridSearchCV(SVR(kernel='rbf', gamma=0.1),{"C": [1e0, 1e1, 1e2, 1e3], "gamma": np.logspace(-2, 2, 5)},cv=5)
#clf = GridSearchCV(LogisticRegression(),{"C":[1e0,1e1,1e2,1e3],"random_state":list(range(10))},cv=5)
#clf = GridSearchCV(KernelRidge(kernel='rbf', gamma=0.1), {"alpha": [1e0, 1e1, 1e2, 1e3], "gamma": np.logspace(-2, 2, 5)},cv=5)
clf.fit(X_train,y_train)
result = clf.score(X_train,y_train)
test = clf.score(X_test,y_test)
c = clf.best_params_
y = clf.predict(X_test)
x = list(range(len(y)))
plt.subplot(2,1,1)
plt.scatter(x=x,y=y,color='r')
plt.scatter(x=x,y=y_test,color='g')
print(clf.best_params_,result,test)
deviation = y - y_test
deviation = deviation.flatten()
deviation = abs(deviation)
print(np.median(deviation))
plt.subplot(2,1,2)
plt.hist(deviation,10)
joblib.dump(clf,"model.m")
plt.show()