【机器学习】支持向量机——介绍与原理推导（SVM上篇）@慕课网原创_慕课网

支持向量机

支持向量机（Support Vector Machine，简称SVM），是机器学习中运用较为广泛的一种的算法，在神经网络出现之前，应用十分广泛。SVM算法是一种二分类算法，通过构建超平面函数，来进行样本分类，如下图所示：
如上图，我们希望找到紫色的边界函数（分类超平面），因为紫色的线有更大的几何间距，对于离群点有更好的兼容性，鲁棒性更好，即泛化能力更好。

问题分析

对于样本空间:
$T=\left\{ \left( x_1,y_1 \right) ,\left( x_2,y_2 \right) ,\cdots,\left( x_N,y_N \right) \right\}$
其中， $x_i\in R^n,y_i\in \left\{ +1,-1 \right\} ,i=1,2,\cdots,N$
$x_i$ 为第 $i$ 个特征向量，也称为实例， $y_i$ 为 $x_i$ 的类标记，当 $y_i =+1$ 时，称 $x_i$ 为正例；当 $y_i=-1$ 时，称 $x_i$ 为负例， $(xi,yi)$ 称为样本点。
假设超平面决策边界函数为： $w^T\cdot x+b=0$
其中 $w=(w_1,w_2,\cdots,w_N)$ 为法向量，决定了超平面的方向， $b$ 为位移项，决定了超平面与原点之间的距离。
由于超平面由 $w$ 和 $b$ 唯一确定，故可以将超平面函数记为 $(w,b)$
又根据，点到平面的距离公式可得，任一点 $x$ 到超平面 $(w,b)$ 的距离表示为：
$r=\frac{|w^Tx+b|}{||w||}$
其中 $r$ 表示距离， $||w||$ 表示法向量 $w$ 的模。
假设超平面 $(w,b)$ 能对样本进行正确分类，那么对于 $(x_i,y_i)\in T$ ，若 $y_i=+1$ ,则有 $w^Tx_i+b>0$ ,相反，若若 $y_i=-1$ ,则有 $w^Tx_i+b<0$ 。我们假设
$\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}$
这两个式子表示的几何意义如下所示：

在图中，有红色边框的样本在上式所表示的平面之上，我们称之为“支持向量”，上式两个公式之间的距离可以表示为：
$r=\frac{2}{||w||}$
该公式由平面间距离公式而得，它被称作“间隔”。
我们的目的是为了求得“最大间隔”，即
$\underset{w,b}{max} \frac{2}{||w||}$
其中 $y_i(w^Tx_i+b)>=1,i=1,2,\cdots,N$
将最大化问题转化为最小化问题：
$\underset{w,b}{min} \frac{1}{2}||w||^2$
其中 $y_i(w^Tx_i+b)>=1,i=1,2,\cdots,N$
这就是支持向量机的基本型，也即优化目标函数。

解释：
为什么选
$\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}$
作为样本边界平行函数？
已知，任意一个空间平面可表示为：
$Ax+By+Cz+d=0$
而平面的平行向量公式为：
$Mx+Ny+Wz+e=0$
其中， $\frac{A}{M}=\frac{B}{N}=\frac{C}{W}\neq\frac{d}{e}$ ,如果比例相等的话，表示的是同一个平面函数。且平行平面之间的距离公式为：
$r=\frac{|d-e|}{\sqrt{A^2+B^2+C^2}}$
所以针对这种情况，我们完全可以固定分子，通过调整分母大小来改变平行平面之间的距离。不仿，令 $|d-e|=1$ ,我们可以通过改变法向量的大小来改变距离大小。再次返回到我们的问题，由于对超平面 $(w,b)$ 的系数 $w$ 和 $b$ 进行等比例缩放不改变平面在空间中的几何位置，所以将函数差值固定为1，通过调节 $w$ 也可以起到改变间距的目的。所以我们假设的边界函数：
$\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}$
其实表示的是平行函数系，即平行超平面的集合。

拉格朗日对偶性

通过上面的分析，支持向量机算法要优化的目标函数为：
$\underset{w,b}{min} \frac{1}{2}||w||^2 \qquad \text{其中}y_i(w^Tx_i+b)>=1,i=1,2,\cdots,N$
对于此类问题的优化求解，我们可以利用凸优化的凸二次规划来求解具体做法请参考机器学习算法系列（12）：SVM（1）—线性可分支持向量机，也可以采用拉格朗日对偶性来求解。

拉格朗日乘子法的一般形式：
$\underset{x}{min}f_0(x)$
约束条件
$f_i(x)\leq0 \qquad i=1,2,\cdots,m$
$h_i(x)=0 \qquad i=1,2,\cdots,q$
进一步转化为：
$min L(x,\lambda,v)=f_0(x)+\sum_{i=1}^{m}\lambda_if_i(x)+\sum_{i=1}^{q}v_ih_i(x)$

根据以上一般形式，我们对最大间隔进行变形,因为有N个样本：
$L(w,b,a)=\frac{1}{2}||w||^2-\sum_{i=1}^Na_i(y_i(w\cdot x_i+b)-1)$
其中, $a=(a_1,a_2,\cdots,a_N)^T$
然后我们令 $\theta(w)=\underset{a_i\geq0}{max} L(w,b,a)$
容易验证，当某个约束条件不满足时，例如 $y_i(w^Tx_i+b)<1$ ，那么我们显然有 $\theta(w)=\infty$ （只要令 $α_i=\infty$ 即可）。而当所有约束条件都满足时，则有 $θ(w)=\frac{1}{2}||w||^2$ ，亦即我们最初要最小化的量。因此，在要求约束条件得到满足的情况下最小化 $\frac{1}{2}||w||^2$ 实际上等价于直接最小化 $θ(w)$ （当然，这里也有约束条件，就是 $α_i≥0,i=1,…,n$ ），因为如果约束条件没有得到满足， $θ(w)$ 会等于无穷大，自然不会是我们所要求的最小值。具体写出来，我们现在的目标函数变成了：
$\underset{w,b}{min}\theta(w)=\underset{w,b}{\min}\underset{a_i≥0}{\max}L\left( w,b,a \right) =p^*$
这里用 $p^*$ 表示这个问题的最优值，这个问题和我们最初的问题是等价的。不过，现在我们来把最小和最大的位置交换一下：
$\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right) =d^*$
当然，交换以后的问题不再等价于原问题，这个新问题的最优值用 $d^*$ 来表示。并，我们有 $d^*\leq p^*$ ，这在直观上也不难理解，最大值中最小的一个总也比最小值中最大的一个要大吧！总之，第二个问题的最优值 $d^*$ ,在这里提供了一个第一个问题的最优值 $p^*$ 的一个下界，在满足某些条件的情况下，这两者相等，这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。这就是KKT对偶性原则（其实没必要理解什么是KKT），我们需要知道的是：在满足所有约束条件的情况下：
$\underset{w,b}{\min}\underset{a_i≥0}{\max}L\left( w,b,a \right) =\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right) =d^*=p^*$
综合以上的所有结论，整理如下：
$θ(w)=\frac{1}{2}||w||^2$
求解 $\underset{w,b}{min} \frac{1}{2}||w||^2$ 转化为求解 $min\theta(w)$ ,即
$\underset{w,b}{min} \frac{1}{2}||w||^2=\underset{w,b}{min}\theta(w)=\underset{w,b}{\min}\underset{a_i≥0}{\max}L\left( w,b,a \right)$
又根据KKT对偶性可得：
$\underset{w,b}{min} \frac{1}{2}||w||^2=\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right)$

推导过程

第一步，求解 $\underset{w,b}{\min}L\left( w,b,a \right)$
对拉格朗日函数 $L(w,b,a)=\frac{1}{2}||w||^2-\sum_{i=1}^Na_i(y_i(w\cdot x_i+b)-1)$
的 $w,b$ 分别求偏导,并令其偏导为0，求极值，可得：
$\frac{\partial L}{\partial w}=w-\sum_{i=1}^Na_iy_ix_i=0$
$\frac{\partial L}{\partial b}=\sum_{i=1}^Na_iy_i=0$
将以上两式代入拉格朗日公式可得：
$\begin{aligned} L(w,b,a)&=\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right) -\sum_{i=1}^N{a_iy_i\left( \left( \sum_{j=1}^N{a_jy_jx_j} \right) \cdot x_i+b \right) +\sum_{i=1}^N{a_i}}}}\\ &=-\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right) +\sum_{i=1}^N{a_i}}} \end{aligned}$
第二步，求解 $\underset{a_i≥0}{\max}\underset{w,b}{\min}L\left( w,b,a \right)$
结合第一步，我们第二步要求的目标函数为：
$\underset{a}{\max} \sum_{i=1}^N{a_i}-\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right)}}$
其中约束条件为：
$\sum_{i=1}^Na_iy_i=0$
$a_i\geq0,i=1,2,\cdots,N$
根据式子形式，我们将求最大值问题转换为求最小值问题：
$\underset{a}{\min}\ \ \ \frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right)}}-\sum_{i=1}^N{a_i}$
其中约束条件为：
$\sum_{i=1}^Na_iy_i=0$
$a_i\geq0,i=1,2,\cdots,N$
至此推导至这一步，已经可以通过样本计算出 $a_i$ 的值了，然后又根据 $a_i$ 和 $w,b$ 的关系，我们可以求出模型：
$\begin{aligned} f(x)&=w^Tx+b\\ &=(\sum_{i=1}^Na_iy_ix_i)^Tx+b \end{aligned}$
对于b的计算，选取不为0的 $a_i$ ,然后代入公式：
$b=y_i-\sum_{i=1}^N{a_{i}y_i\left( x_i \cdot x_j \right)}$
举例：
假设有三个样本点，其中正例 $X_1(3,3)$ , $X_2(4,3)$ ,负例 $X_3(1,1)$
求解：
$\underset{a}{\min}\ \ \ \frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{a_ia_jy_iy_j\left( x_i\cdot x_j \right)}}-\sum_{i=1}^N{a_i}$
约束条件为：
$\begin{cases}a_i+a_2-a_3=0\\ a_i\geq0,\qquad i=1,2,3\end{cases}$
示意图如下所示：

将数据代入求解公式可得：
$\frac{1}{2}\left(18a_1^2+25a_2^2+2a_3^2+42a_1a_2-12a_1a_3-14a_2a_3\right)-a_1-a_2-a_3$
由于 $a_i+a_2-a_3=0$ ,化简可得：
$4a_1^2+\frac{13}{2}a_2^2+10a_1a_2-2a_1-2a_2$
分别对 $a_1$ 和 $a_2$ 求偏导，令偏导等于0，可得， $a_1=1.5,a_2=-1$
这显然与 $a_i\geq0$ 相违背，所以解应该在边界上，分别令 $a_1=0$ ,得 $a_2=-\frac{2}{13}$ ,同样不满足条件。
令 $a_2=0$ ，满足条件，可得最小值在 $(0.25,0,0.25)$ 取得。
将 $a$ 的取值代入 $w=\sum_{i=1}^Na_iy_ix_i$
可得 $w=\frac{1}{4}*1*(3,3)+\frac{1}{4}*(-1)*(1,1)=(\frac{1}{2},\frac{1}{2})$
$\begin{aligned}b&=y_i-\sum_{i=1}^N{a_{i}y_i\left( x_i \cdot x_j \right)}\\ &=1-(\frac{1}{4}*1*18+\frac{1}{4}*(-1)*6)\\ &=-2 \end{aligned}$
故超平面方程为： $0.5x_1+0.5x_2-2=0$

拉格朗日参数分析

对于拉格朗日乘子式,我们为约束条件添加参数 $a_i$ ,为了求得
$\underset{a_i≥0}{max}L(w,b,a)=\underset{a_i≥0}{max}\frac{1}{2}||w||^2-\sum_{i=1}^na_i(y_i(w^Tx_i+b)-1)$
当样本点不在边界函数上时，函数间隔即 $y_i(w^Tx_i+b)-1$ 大于1，而为了让式子求得最大值，此时对应的 $a_i$ 必须等于0，而对于分布在边界函数上的样本， $y_i(w^Tx_i+b)-1=0$ ，此时由于 $a_i\geq0$
所以支持向量机的决策边界函数，仅有 $a_i\neq0$ 的量所决定，即仅有在边界函数上的点所决定。
注意：边界函数为： $\begin{cases} w^Tx_i+b>=+1,y_i=+1\\ w^Tx_i+b<=-1,y_i=-1 \end{cases}$
决策边界为：
$w^T\cdot x+b=0$