手记

【机器学习】支持向量机——介绍与原理推导(SVM上篇)

支持向量机

支持向量机(Support Vector Machine,简称SVM),是机器学习中运用较为广泛的一种的算法,在神经网络出现之前,应用十分广泛。SVM算法是一种二分类算法,通过构建超平面函数,来进行样本分类,如下图所示:
如上图,我们希望找到紫色的边界函数(分类超平面),因为紫色的线有更大的几何间距,对于离群点有更好的兼容性,鲁棒性更好,即泛化能力更好。

问题分析

对于样本空间:
T={(x1,y1),(x2,y2),,(xN,yN)}T=\left\{ \left( x_1,y_1 \right) ,\left( x_2,y_2 \right) ,\cdots,\left( x_N,y_N \right) \right\}
其中,xiRn,yi{+1,1},i=1,2,,Nx_i\in R^n,y_i\in \left\{ +1,-1 \right\} ,i=1,2,\cdots,N
xix_i为第ii个特征向量,也称为实例,yiy_ixix_i的类标记,当yi=+1y_i =+1时,称xix_i为正例;当yi=1y_i=-1时,称xix_i为负例,(xi,yi)(xi,yi)称为样本点。
假设超平面决策边界函数为:wTx+b=0w^T\cdot x+b=0
其中w=(w1,w2,,wN)w=(w_1,w_2,\cdots,w_N)为法向量,决定了超平面的方向,bb为位移项,决定了超平面与原点之间的距离。
由于超平面由wwbb唯一确定,故可以将超平面函数记为(w,b)(w,b)
又根据,点到平面的距离公式可得,任一点xx到超平面(w,b)(w,b)的距离表示为:
r=wTx+bwr=\frac{|w^Tx+b|}{||w||}
其中rr表示距离,w||w||表示法向量ww的模。
假设超平面(w,b)(w,b)能对样本进行正确分类,那么对于(xi,yi)T(x_i,y_i)\in T,若yi=+1y_i=+1,则有wTxi+b>0w^Tx_i+b>0,相反,若若yi=1y_i=-1,则有wTxi+b<0w^Tx_i+b<0。我们假设
{wTxi+b>=+1,yi=+1wTxi+b<=1,yi=1\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}
这两个式子表示的几何意义如下所示:

在图中,有红色边框的样本在上式所表示的平面之上,我们称之为“支持向量”,上式两个公式之间的距离可以表示为:
r=2wr=\frac{2}{||w||}
该公式由平面间距离公式而得,它被称作“间隔”。
我们的目的是为了求得“最大间隔”,即
maxw,b2w\underset{w,b}{max} \frac{2}{||w||}
其中yi(wTxi+b)>=1,i=1,2,,Ny_i(w^Tx_i+b)>=1,i=1,2,\cdots,N
将最大化问题转化为最小化问题:
minw,b12w2\underset{w,b}{min} \frac{1}{2}||w||^2
其中yi(wTxi+b)>=1,i=1,2,,Ny_i(w^Tx_i+b)>=1,i=1,2,\cdots,N
这就是支持向量机的基本型,也即优化目标函数。

解释:
为什么选
{wTxi+b>=+1,yi=+1wTxi+b<=1,yi=1\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}
作为样本边界平行函数?
已知,任意一个空间平面可表示为:
Ax+By+Cz+d=0Ax+By+Cz+d=0
而平面的平行向量公式为:
Mx+Ny+Wz+e=0Mx+Ny+Wz+e=0
其中,AM=BN=CWde\frac{A}{M}=\frac{B}{N}=\frac{C}{W}\neq\frac{d}{e},如果比例相等的话,表示的是同一个平面函数。且平行平面之间的距离公式为:
r=deA2+B2+C2r=\frac{|d-e|}{\sqrt{A^2+B^2+C^2}}
所以针对这种情况,我们完全可以固定分子,通过调整分母大小来改变平行平面之间的距离。不仿,令de=1|d-e|=1,我们可以通过改变法向量的大小来改变距离大小。再次返回到我们的问题,由于对超平面(w,b)(w,b)的系数wwbb进行等比例缩放不改变平面在空间中的几何位置,所以将函数差值固定为1,通过调节ww也可以起到改变间距的目的。所以我们假设的边界函数:
{wTxi+b>=+1,yi=+1wTxi+b<=1,yi=1\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}
其实表示的是平行函数系,即平行超平面的集合。

拉格朗日对偶性

通过上面的分析,支持向量机算法要优化的目标函数为:
minw,b12w2其中yi(wTxi+b)>=1,i=1,2,,N\underset{w,b}{min} \frac{1}{2}||w||^2 \qquad \text{其中}y_i(w^Tx_i+b)>=1,i=1,2,\cdots,N
对于此类问题的优化求解,我们可以利用凸优化的凸二次规划来求解具体做法请参考机器学习算法系列(12):SVM(1)—线性可分支持向量机,也可以采用拉格朗日对偶性来求解。

拉格朗日乘子法的一般形式:
minxf0(x)\underset{x}{min}f_0(x)
约束条件
fi(x)0i=1,2,,mf_i(x)\leq0 \qquad i=1,2,\cdots,m
hi(x)=0i=1,2,,qh_i(x)=0 \qquad i=1,2,\cdots,q
进一步转化为:
minL(x,λ,v)=f0(x)+i=1mλifi(x)+i=1qvihi(x)min L(x,\lambda,v)=f_0(x)+\sum_{i=1}^{m}\lambda_if_i(x)+\sum_{i=1}^{q}v_ih_i(x)

根据以上一般形式,我们对最大间隔进行变形,因为有N个样本:
L(w,b,a)=12w2i=1Nai(yi(wxi+b)1)L(w,b,a)=\frac{1}{2}||w||^2-\sum_{i=1}^Na_i(y_i(w\cdot x_i+b)-1)
其中,a=(a1,a2,,aN)Ta=(a_1,a_2,\cdots,a_N)^T
然后我们令θ(w)=maxai0L(w,b,a)\theta(w)=\underset{a_i\geq0}{max} L(w,b,a)
容易验证,当某个约束条件不满足时,例如 yi(wTxi+b)<1y_i(w^Tx_i+b)<1,那么我们显然有 θ(w)=\theta(w)=\infty(只要令αi=α_i=\infty即可)。而当所有约束条件都满足时,则有 θ(w)=12w2θ(w)=\frac{1}{2}||w||^2,亦即我们最初要最小化的量。因此,在要求约束条件得到满足的情况下最小化 12w2\frac{1}{2}||w||^2实际上等价于直接最小化 θ(w)θ(w)(当然,这里也有约束条件,就是 αi0,i=1,,nα_i≥0,i=1,…,n),因为如果约束条件没有得到满足,θ(w)θ(w) 会等于无穷大,自然不会是我们所要求的最小值。具体写出来,我们现在的目标函数变成了:
minw,bθ(w)=minw,bmaxai0L(w,b,a)=p\underset{w,b}{min}\theta(w)=\underset{w,b}{\min}\underset{a_i≥0}{\max}L\left( w,b,a \right) =p^*
这里用 pp^* 表示这个问题的最优值,这个问题和我们最初的问题是等价的。不过,现在我们来把最小和最大的位置交换一下:
maxai0minw,bL(w,b,a)=d\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right) =d^*
当然,交换以后的问题不再等价于原问题,这个新问题的最优值用 dd^* 来表示。并,我们有 dpd^*\leq p^*,这在直观上也不难理解,最大值中最小的一个总也比最小值中最大的一个要大吧!总之,第二个问题的最优值dd^*,在这里提供了一个第一个问题的最优值pp^* 的一个下界,在满足某些条件的情况下,这两者相等,这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。这就是KKT对偶性原则(其实没必要理解什么是KKT),我们需要知道的是:在满足所有约束条件的情况下:
minw,bmaxai0L(w,b,a)=maxai0minw,bL(w,b,a)=d=p\underset{w,b}{\min}\underset{a_i≥0}{\max}L\left( w,b,a \right) =\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right) =d^*=p^*
综合以上的所有结论,整理如下:
θ(w)=12w2θ(w)=\frac{1}{2}||w||^2
求解minw,b12w2\underset{w,b}{min} \frac{1}{2}||w||^2转化为求解minθ(w)min\theta(w),即
minw,b12w2=minw,bθ(w)=minw,bmaxai0L(w,b,a)\underset{w,b}{min} \frac{1}{2}||w||^2=\underset{w,b}{min}\theta(w)=\underset{w,b}{\min}\underset{a_i≥0}{\max}L\left( w,b,a \right)
又根据KKT对偶性可得:
minw,b12w2=maxai0minw,bL(w,b,a)\underset{w,b}{min} \frac{1}{2}||w||^2=\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right)

推导过程

  • 第一步,求解minw,bL(w,b,a)\underset{w,b}{\min}L\left( w,b,a \right)
    对拉格朗日函数L(w,b,a)=12w2i=1Nai(yi(wxi+b)1)L(w,b,a)=\frac{1}{2}||w||^2-\sum_{i=1}^Na_i(y_i(w\cdot x_i+b)-1)
    w,bw,b分别求偏导,并令其偏导为0,求极值,可得:
    Lw=wi=1Naiyixi=0\frac{\partial L}{\partial w}=w-\sum_{i=1}^Na_iy_ix_i=0
    Lb=i=1Naiyi=0\frac{\partial L}{\partial b}=\sum_{i=1}^Na_iy_i=0
    将以上两式代入拉格朗日公式可得:
    L(w,b,a)=12i=1Nj=1Naiajyiyj(xixj)i=1Naiyi((j=1Najyjxj)xi+b)+i=1Nai=12i=1Nj=1Naiajyiyj(xixj)+i=1Nai\begin{aligned} L(w,b,a)&=\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right) -\sum_{i=1}^N{a_iy_i\left( \left( \sum_{j=1}^N{a_jy_jx_j} \right) \cdot x_i+b \right) +\sum_{i=1}^N{a_i}}}}\\ &=-\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right) +\sum_{i=1}^N{a_i}}} \end{aligned}
  • 第二步,求解maxai0minw,bL(w,b,a)\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right)
    结合第一步,我们第二步要求的目标函数为:
    maxai=1Nai12i=1Nj=1Naiajyiyj(xixj)\underset{a}{\max} \sum_{i=1}^N{a_i}-\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right)}}
    其中约束条件为:
    i=1Naiyi=0\sum_{i=1}^Na_iy_i=0
    ai0,i=1,2,,Na_i\geq0,i=1,2,\cdots,N
    根据式子形式,我们将求最大值问题转换为求最小值问题:
    mina   12i=1Nj=1Naiajyiyj(xixj)i=1Nai\underset{a}{\min}\ \ \ \frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right)}}-\sum_{i=1}^N{a_i}
    其中约束条件为:
    i=1Naiyi=0\sum_{i=1}^Na_iy_i=0
    ai0,i=1,2,,Na_i\geq0,i=1,2,\cdots,N
    至此推导至这一步,已经可以通过样本计算出aia_i的值了,然后又根据aia_iw,bw,b的关系,我们可以求出模型:
    f(x)=wTx+b=(i=1Naiyixi)Tx+b\begin{aligned} f(x)&=w^Tx+b\\ &=(\sum_{i=1}^Na_iy_ix_i)^Tx+b \end{aligned}
    对于b的计算,选取不为0的aia_i,然后代入公式:
    b=yii=1Naiyi(xixj)b=y_i-\sum_{i=1}^N{a_{i}y_i\left( x_i \cdot x_j \right)}
    举例:
    假设有三个样本点,其中正例X1(3,3)X_1(3,3),X2(4,3)X_2(4,3),负例X3(1,1)X_3(1,1)
    求解:
    mina   12i=1Nj=1Naiajyiyj(xixj)i=1Nai\underset{a}{\min}\ \ \ \frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right)}}-\sum_{i=1}^N{a_i}
    约束条件为:
    {ai+a2a3=0ai0,i=1,2,3\begin{cases}a_i+a_2-a_3=0\\ a_i\geq0,\qquad i=1,2,3\end{cases}
    示意图如下所示:


将数据代入求解公式可得:
12(18a12+25a22+2a32+42a1a212a1a314a2a3)a1a2a3\frac{1}{2}\left(18a_1^2+25a_2^2+2a_3^2+42a_1a_2-12a_1a_3-14a_2a_3\right)-a_1-a_2-a_3
由于ai+a2a3=0a_i+a_2-a_3=0,化简可得:
4a12+132a22+10a1a22a12a24a_1^2+\frac{13}{2}a_2^2+10a_1a_2-2a_1-2a_2
分别对a1a_1a2a_2求偏导,令偏导等于0,可得,a1=1.5,a2=1a_1=1.5,a_2=-1
这显然与ai0a_i\geq0相违背,所以解应该在边界上,分别令a1=0a_1=0,得a2=213a_2=-\frac{2}{13},同样不满足条件。
a2=0a_2=0,满足条件,可得最小值在(0.25,0,0.25)(0.25,0,0.25)取得。
aa的取值代入w=i=1Naiyixiw=\sum_{i=1}^Na_iy_ix_i
可得w=141(3,3)+14(1)(1,1)=(12,12)w=\frac{1}{4}*1*(3,3)+\frac{1}{4}*(-1)*(1,1)=(\frac{1}{2},\frac{1}{2})
b=yii=1Naiyi(xixj)=1(14118+14(1)6)=2\begin{aligned}b&=y_i-\sum_{i=1}^N{a_{i}y_i\left( x_i \cdot x_j \right)}\\ &=1-(\frac{1}{4}*1*18+\frac{1}{4}*(-1)*6)\\ &=-2 \end{aligned}
故超平面方程为:0.5x1+0.5x22=00.5x_1+0.5x_2-2=0

拉格朗日参数分析

对于拉格朗日乘子式,我们为约束条件添加参数aia_i,为了求得
maxai0L(w,b,a)=maxai012w2i=1nai(yi(wTxi+b)1)\underset{a_i≥0}{max}L(w,b,a)=\underset{a_i≥0}{max}\frac{1}{2}||w||^2-\sum_{i=1}^na_i(y_i(w^Tx_i+b)-1)
当样本点不在边界函数上时,函数间隔即yi(wTxi+b)1y_i(w^Tx_i+b)-1大于1,而为了让式子求得最大值,此时对应的aia_i必须等于0,而对于分布在边界函数上的样本,yi(wTxi+b)1=0y_i(w^Tx_i+b)-1=0,此时由于ai0a_i\geq0
所以支持向量机的决策边界函数,仅有ai0a_i\neq0的量所决定,即仅有在边界函数上的点所决定。
注意:边界函数为:{wTxi+b>=+1,yi=+1wTxi+b<=1,yi=1\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}
决策边界为:
wTx+b=0w^T\cdot x+b=0

3人推荐
随时随地看视频
慕课网APP