手记

岭回归,Lasso回归和弹性网回归理论及特点

 主要介绍了线性回归模型,岭回归,lasso回归和弹性网的基础理论。

线性回归模型

 线性回归是回归分析中最基本的一类回归问题,对于一般的线性回归模型来说,假设预测变量的个数为pp,样本容量为NN,则:

{yi=β0+β1xi1+⋯+βpxip+ϵiϵi∼N(0,σ2),i=1,2,3,⋯,N(1)(1){yi=β0+β1xi1++βpxip+ϵiϵiN(0,σ2),i=1,2,3,,N


 若记:Y=(y1,y2,⋯,yN)TY=(y1y2,,yN)T,β=(β0,β1,⋯,βp)Tβ=(β0,β1,,βp)T,Xi=(x1i,x2i,⋯,xNi)TXi=(x1i,x2i,,xNi)T,i=1,2,⋯,Ni=1,2,,N


X=(1,X1,X2,⋯,Xp)X=(1,X1,X2,,Xp),ϵ=(ϵ1,ϵ2,⋯,ϵN)Tϵ=(ϵ1,ϵ2,,ϵN)T,TT代表转置。

 则模型1用矩阵表示为:

{Y=Xβ+ϵϵ∼NN(0,σ2IN)(2)(2){Y=Xβ+ϵϵNN(0,σ2IN)


 故回归系数的最小二乘估计为:

β^LS=(XTX)(−1)XTYβ^LS=(XTX)(1)XTY


 对于任意给定的x0=(x01,x02,⋯,x0p)Tx0=(x01,x02,,x0p)T,其拟合值为:f^(x0)=β^0+β^1x01+⋯+β^px0pf^(x0)=β^0+β^1x01++β^px0p


 对于给定的x=x0x=x0,拟合值的期望误差分解如下:

Err(x0)=E[(y−f^(x0)2)]=σ2+Bias2(f^(x0))+Var(f^(x0))Err(x0)=E[(yf^(x0)2)]=σ2+Bias2(f^(x0))+Var(f^(x0))


 其中,E(y)=f(x0)E(y)=f(x0),σ2σ2为目标值围绕真实值的一个扰动,无论模型估计的有多不好,这一项都不可避免的出现。Bias2(f^(x0))Bias2(f^(x0))为偏倚,即为估计值偏差真实值的一个度量,Var(f^(x0))Var(f^(x0))为估计值的方差。


岭回归

 对于模型1,岭回归估计的定义为:

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}(3)(3)β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}


 或者等价的


β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2}s.t.∑j=1pβ2j≤tβ^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2}s.t.j=1pβj2t


 其中:λ≥0λ0为罚参数,λλ取值越大,回归系数收缩 越大.特别地,当λ=0λ=0时,岭回归退化为LS回归. 值得注意的是,在惩罚项中,并没有对常数项β0β0进行惩罚.事实上,对每一个响应加上一个常数,不会 对回归系数造成影响.从而,岭回归的解式(3),可以分为两部分,一部分是对响应变量YY中心化,得 到常数项β0β0的估计值为y¯¯¯=1N∑i=1Nyiy¯=1Ni=1Nyi,另一部分是用 岭回归定义估计其他预测变量的系数。


  将响应变量中心化后,式(3)等价为

RSS(λ)=(Y−Xβ)T(Y−Xβ)+λβTβRSS(λ)=(YXβ)T(YXβ)+λβTβ


  解优化问题minRSS(λ)βminRSS(λ)β得岭回归的解为  

β^ridge=(XTX+λI)−1XTYβ^ridge=(XTX+λI)1XTY


 由式(5)可以看出,岭回归的解是在LS回归 解的基础上,加了一个正的惩罚参数λλ.故当矩阵XX的某些列向量近似线性相关时,矩阵XTX+λIXTX+λI,的奇异性要比XTXXTX低,从而降低了估计值的方差, 提高了估计精度.然而,岭回归也有一定的局限性, 它的回归结果中包含所有的预测变量,没有进行变量选择,因此会影响模型的准确性.


lasso回归

 针对岭回归中没有变量选择的问题,Tibshirani 在1996年提出了Lasso回归,对其进行了改进. Lasso估计的定义为  

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p|βj|}β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1p|βj|}


 或者等价的记为  

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2}s.t.∑j=1p|βj|≤tβ^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2}s.t.j=1p|βj|t


 与岭回归的二次罚函数λ∑j=1pβ2jλj=1pβj2相比,Lasso的 一次罚函数λ∑j=1p|βj|λj=1p|βj|既能把非0的预测变量系数βjβj向0收缩,又能选择出那些很有价值的预测变量 (|βj||βj|值大的预测变量).这是因为相对于λ∑j=1pβ2jλj=1pβj2来说,一次罚λ∑j=1p|βj|λj=1p|βj|对变量系数口βjβj的收缩程度要小,因此比Lasso能选出更精确的模型.


弹性网回归

 Lasso回归与LS回归相比虽然大大降低了预 测方差,达到了系数收缩和变量选择的目的,但是 也有一定的局限性广。譬如

  • 在Lasso回归求解路径中,对于N×P的设计矩阵来说,最多只能选出min(N,p)min(N,p)个变量. 当p>Np>N的时候,最多只能选出NN个预测变量.因 此,对于p∼NpN的情况,Lasso方法不能够很好的选 出真实的模型.

  • 如果预测变量具有群组效应,则用Lasso回 归时,只能选出其中的一个预测变量.

  • 对于通常的N>PN>P的情形,如果预测变量中 存在很强的共线性,Lasso的预测表现受控于岭回 归.

  基于以上几点Lasso回归的局限性,Zou和 Hastie在2005年提出了弹性网回归方法,回归系 数表达式为  

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p|βj|+λ∑j=1pβ2j}β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1p|βj|+λj=1pβj2}


 若令λ=λ1+λ2,α=λλ1+λ2λ=λ1+λ2,α=λλ1+λ2

β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p(α|βj|+(1−α)β2j)}β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1p(α|βj|+(1α)βj2)}


 由此可知,弹性网的罚函数λ∑j=1p(α|βj|+(1−α)β2j)λj=1p(α|βj|+(1α)βj2)恰好为岭回归罚函数和Lasso罚函数的一个凸线性组合.当α=0α=0时,弹性网回归即为岭回归;当α=1α=1时,弹性网回归即为Lasso回归.因此,弹性网 回归兼有Lasso回归和岭回归的优点,既能达到变 量选择的目的,又具有很好的群组效应.


结果对比:

 岭回归结果表明,岭回归虽然一定程度上可以拟合模型,但容易导致回归结果失真;lasso回归虽然能刻画模型代表的现实情况,但是模型过于简单,不符合实际。弹性网回归结果表明,一方面达到了岭回归对重要特征选择的目的,另一方面又像Lasso回归那样,删除了对因变量影响较小的特征,取得了很好的效果

原文出处

0人推荐
随时随地看视频
慕课网APP