岭回归，Lasso回归和弹性网回归理论及特点-原创手记-慕课网

主要介绍了线性回归模型，岭回归，lasso回归和弹性网的基础理论。

线性回归模型

线性回归是回归分析中最基本的一类回归问题，对于一般的线性回归模型来说，假设预测变量的个数为p $p$ ，样本容量为N $N$ ，则：

{yi=β0+β1xi1+⋯+βpxip+ϵiϵi∼N(0,σ2),i=1,2,3,⋯,N(1) $\begin{matrix} (1) & {\begin{matrix} y_{i} = β_{0} + β_{1} x_{i 1} + \dots + β_{p} x_{i p} + ϵ_{i} \\ ϵ_{i} \sim N (0, σ^{2}), i = 1, 2, 3, \dots, N \end{matrix} \end{matrix}$

若记：Y=(y1，y2,⋯,yN)T $Y = (y_{1} ， y_{2}, \dots, y_{N})^{T}$ ,β=(β0,β1,⋯,βp)T $β = (β_{0}, β_{1}, \dots, β_{p})^{T}$ ,Xi=(x1i,x2i,⋯,xNi)T $X_{i} = (x_{1 i}, x_{2 i}, \dots, x_{N i})^{T}$ ,i=1,2,⋯,N $i = 1, 2, \dots, N$

X=(1,X1,X2,⋯,Xp) $X = (1, X_{1}, X_{2}, \dots, X_{p})$ ,ϵ=(ϵ1,ϵ2,⋯,ϵN)T $ϵ = (ϵ_{1}, ϵ_{2}, \dots, ϵ_{N})^{T}$ ,T $T$ 代表转置。

则模型1用矩阵表示为：

{Y=Xβ+ϵϵ∼NN(0,σ2IN)(2) $\begin{matrix} (2) & {\begin{matrix} Y = X β + ϵ \\ ϵ \sim N_{N} (0, σ^{2} I_{N}) \end{matrix} \end{matrix}$

故回归系数的最小二乘估计为：

β^LS=(XTX)(−1)XTY ${\hat{β}}^{L S} = (X^{T} X)^{(- 1)} X^{T} Y$

对于任意给定的x0=(x01,x02,⋯,x0p)T $x_{0} = (x_{01}, x_{02}, \dots, x_{0 p})^{T}$ ，其拟合值为：f^(x0)=β^0+β^1x01+⋯+β^px0p $\hat{f} (x_{0}) = {\hat{β}}_{0} + {\hat{β}}_{1} x_{01} + \dots + {\hat{β}}_{p} x_{0 p}$

对于给定的x=x0 $x = x 0$ ，拟合值的期望误差分解如下：

Err(x0)=E[(y−f^(x0)2)]=σ2+Bias2(f^(x0))+Var(f^(x0)) $E r r (x_{0}) = E [(y - \hat{f} (x_{0})^{2})] = σ^{2} + B i a s^{2} (\hat{f} (x_{0})) + V a r (\hat{f} (x_{0}))$

其中，E(y)=f(x0) $E (y) = f (x_{0})$ ,σ2 $σ^{2}$ 为目标值围绕真实值的一个扰动，无论模型估计的有多不好，这一项都不可避免的出现。Bias2(f^(x0)) $B i a s^{2} (\hat{f} (x_{0}))$ 为偏倚，即为估计值偏差真实值的一个度量，Var(f^(x0)) $V a r (\hat{f} (x_{0}))$ 为估计值的方差。

岭回归

对于模型1，岭回归估计的定义为：

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}(3) $\begin{matrix} (3) & {\hat{β}}^{r i d g e} = \underset{β}{\arg min} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}} \end{matrix}$

或者等价的

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2}s.t.∑j=1pβ2j≤t ${\hat{β}}^{r i d g e} = \underset{β}{\arg min} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}} s . t . \sum_{j = 1}^{p} β_{j}^{2} \leq t$

其中：λ≥0 $λ \geq 0$ 为罚参数，λ $λ$ 取值越大，回归系数收缩越大．特别地，当λ=0 $λ = 0$ 时，岭回归退化为LS回归．值得注意的是，在惩罚项中，并没有对常数项β0 $β 0$ 进行惩罚．事实上，对每一个响应加上一个常数，不会对回归系数造成影响．从而，岭回归的解式(3)，可以分为两部分，一部分是对响应变量Y $Y$ 中心化，得到常数项β0 $β_{0}$ 的估计值为y¯¯¯=1N∑i=1Nyi $\bar{y} = \frac{1}{N} \sum_{i = 1}^{N} y_{i}$ ，另一部分是用岭回归定义估计其他预测变量的系数。

将响应变量中心化后，式(3)等价为

RSS(λ)=(Y−Xβ)T(Y−Xβ)+λβTβ $R S S (λ) = (Y - X β)^{T} (Y - X β) + λ β^{T} β$

解优化问题minRSS(λ)β ${m i n R S S (λ)}_{β}$ 得岭回归的解为

β^ridge=(XTX+λI)−1XTY ${\hat{β}}^{r i d g e} = (X^{T} X + λ I)^{- 1} X^{T} Y$

由式(5)可以看出，岭回归的解是在LS回归解的基础上，加了一个正的惩罚参数λ $λ$ ．故当矩阵X $X$ 的某些列向量近似线性相关时，矩阵XTX+λI $X^{T} X + λ I$ ，的奇异性要比XTX $X^{T} X$ 低，从而降低了估计值的方差，提高了估计精度．然而，岭回归也有一定的局限性，它的回归结果中包含所有的预测变量，没有进行变量选择，因此会影响模型的准确性．

lasso回归

针对岭回归中没有变量选择的问题，Tibshirani 在1996年提出了Lasso回归，对其进行了改进． Lasso估计的定义为

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p|βj|} ${\hat{β}}^{r i d g e} = \underset{β}{\arg min} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} | β_{j} |}$

或者等价的记为

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2}s.t.∑j=1p|βj|≤t ${\hat{β}}^{r i d g e} = \underset{β}{\arg min} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}} s . t . \sum_{j = 1}^{p} | β_{j} | \leq t$

与岭回归的二次罚函数λ∑j=1pβ2j $λ \sum_{j = 1}^{p} β_{j}^{2}$ 相比，Lasso的一次罚函数λ∑j=1p|βj| $λ \sum_{j = 1}^{p} | β_{j} |$ 既能把非0的预测变量系数βj $β_{j}$ 向0收缩,又能选择出那些很有价值的预测变量 (|βj| $| β_{j} |$ 值大的预测变量)．这是因为相对于λ∑j=1pβ2j $λ \sum_{j = 1}^{p} β_{j}^{2}$ 来说，一次罚λ∑j=1p|βj| $λ \sum_{j = 1}^{p} | β_{j} |$ 对变量系数口βj $β_{j}$ 的收缩程度要小，因此比Lasso能选出更精确的模型．

弹性网回归

Lasso回归与LS回归相比虽然大大降低了预测方差，达到了系数收缩和变量选择的目的，但是也有一定的局限性广。譬如

在Lasso回归求解路径中，对于N×P的设计矩阵来说，最多只能选出min(N,p) $m i n (N, p)$ 个变量．当p>N $p > N$ 的时候，最多只能选出N $N$ 个预测变量．因此，对于p∼N $p \sim N$ 的情况，Lasso方法不能够很好的选出真实的模型．
如果预测变量具有群组效应，则用Lasso回归时，只能选出其中的一个预测变量．
对于通常的N>P $N > P$ 的情形，如果预测变量中存在很强的共线性，Lasso的预测表现受控于岭回归．

基于以上几点Lasso回归的局限性，Zou和 Hastie在2005年提出了弹性网回归方法，回归系数表达式为

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p|βj|+λ∑j=1pβ2j} ${\hat{β}}^{r i d g e} = \underset{β}{\arg min} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} | β_{j} | + λ \sum_{j = 1}^{p} β_{j}^{2}}$

若令λ=λ1+λ2,α=λλ1+λ2 $λ = λ_{1} + λ_{2}, α = \frac{λ}{λ_{1} + λ_{2}}$ 则

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p(α|βj|+(1−α)β2j)} ${\hat{β}}^{r i d g e} = \underset{β}{\arg min} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} (α | β_{j} | + (1 - α) β_{j}^{2})}$

由此可知，弹性网的罚函数λ∑j=1p(α|βj|+(1−α)β2j) $λ \sum_{j = 1}^{p} (α | β_{j} | + (1 - α) β_{j}^{2})$ 恰好为岭回归罚函数和Lasso罚函数的一个凸线性组合．当α=0 $α = 0$ 时，弹性网回归即为岭回归；当α=1 $α = 1$ 时，弹性网回归即为Lasso回归．因此，弹性网回归兼有Lasso回归和岭回归的优点，既能达到变量选择的目的，又具有很好的群组效应．

结果对比：

岭回归结果表明，岭回归虽然一定程度上可以拟合模型，但容易导致回归结果失真；lasso回归虽然能刻画模型代表的现实情况，但是模型过于简单，不符合实际。弹性网回归结果表明，一方面达到了岭回归对重要特征选择的目的，另一方面又像Lasso回归那样，删除了对因变量影响较小的特征，取得了很好的效果

原文出处