主要介绍了线性回归模型,岭回归,lasso回归和弹性网的基础理论。
线性回归模型
线性回归是回归分析中最基本的一类回归问题,对于一般的线性回归模型来说,假设预测变量的个数为p,样本容量为N,则:
{yi=β0+β1xi1+⋯+βpxip+ϵiϵi∼N(0,σ2),i=1,2,3,⋯,N(1)
若记:Y=(y1,y2,⋯,yN)T,β=(β0,β1,⋯,βp)T,Xi=(x1i,x2i,⋯,xNi)T,i=1,2,⋯,N
X=(1,X1,X2,⋯,Xp),ϵ=(ϵ1,ϵ2,⋯,ϵN)T,T代表转置。
则模型1用矩阵表示为:
{Y=Xβ+ϵϵ∼NN(0,σ2IN)(2)
故回归系数的最小二乘估计为:
β^LS=(XTX)(−1)XTY
对于任意给定的x0=(x01,x02,⋯,x0p)T,其拟合值为:f^(x0)=β^0+β^1x01+⋯+β^px0p
对于给定的x=x0,拟合值的期望误差分解如下:
Err(x0)=E[(y−f^(x0)2)]=σ2+Bias2(f^(x0))+Var(f^(x0))
其中,E(y)=f(x0),σ2为目标值围绕真实值的一个扰动,无论模型估计的有多不好,这一项都不可避免的出现。Bias2(f^(x0))为偏倚,即为估计值偏差真实值的一个度量,Var(f^(x0))为估计值的方差。
岭回归
对于模型1,岭回归估计的定义为:
β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}(3)
或者等价的
β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2}s.t.∑j=1pβ2j≤t
其中:λ≥0为罚参数,λ取值越大,回归系数收缩 越大.特别地,当λ=0时,岭回归退化为LS回归. 值得注意的是,在惩罚项中,并没有对常数项β0进行惩罚.事实上,对每一个响应加上一个常数,不会 对回归系数造成影响.从而,岭回归的解式(3),可以分为两部分,一部分是对响应变量Y中心化,得 到常数项β0的估计值为y¯¯¯=1N∑i=1Nyi,另一部分是用 岭回归定义估计其他预测变量的系数。
将响应变量中心化后,式(3)等价为
RSS(λ)=(Y−Xβ)T(Y−Xβ)+λβTβ
解优化问题minRSS(λ)β得岭回归的解为
β^ridge=(XTX+λI)−1XTY
由式(5)可以看出,岭回归的解是在LS回归 解的基础上,加了一个正的惩罚参数λ.故当矩阵X的某些列向量近似线性相关时,矩阵XTX+λI,的奇异性要比XTX低,从而降低了估计值的方差, 提高了估计精度.然而,岭回归也有一定的局限性, 它的回归结果中包含所有的预测变量,没有进行变量选择,因此会影响模型的准确性.
lasso回归
针对岭回归中没有变量选择的问题,Tibshirani 在1996年提出了Lasso回归,对其进行了改进. Lasso估计的定义为
β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p|βj|}
或者等价的记为
β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2}s.t.∑j=1p|βj|≤t
与岭回归的二次罚函数λ∑j=1pβ2j相比,Lasso的 一次罚函数λ∑j=1p|βj|既能把非0的预测变量系数βj向0收缩,又能选择出那些很有价值的预测变量 (|βj|值大的预测变量).这是因为相对于λ∑j=1pβ2j来说,一次罚λ∑j=1p|βj|对变量系数口βj的收缩程度要小,因此比Lasso能选出更精确的模型.
弹性网回归
Lasso回归与LS回归相比虽然大大降低了预 测方差,达到了系数收缩和变量选择的目的,但是 也有一定的局限性广。譬如
在Lasso回归求解路径中,对于N×P的设计矩阵来说,最多只能选出min(N,p)个变量. 当p>N的时候,最多只能选出N个预测变量.因 此,对于p∼N的情况,Lasso方法不能够很好的选 出真实的模型.
如果预测变量具有群组效应,则用Lasso回 归时,只能选出其中的一个预测变量.
对于通常的N>P的情形,如果预测变量中 存在很强的共线性,Lasso的预测表现受控于岭回 归.
基于以上几点Lasso回归的局限性,Zou和 Hastie在2005年提出了弹性网回归方法,回归系 数表达式为
β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p|βj|+λ∑j=1pβ2j}
若令λ=λ1+λ2,α=λλ1+λ2则
β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1p(α|βj|+(1−α)β2j)}
由此可知,弹性网的罚函数λ∑j=1p(α|βj|+(1−α)β2j)恰好为岭回归罚函数和Lasso罚函数的一个凸线性组合.当α=0时,弹性网回归即为岭回归;当α=1时,弹性网回归即为Lasso回归.因此,弹性网 回归兼有Lasso回归和岭回归的优点,既能达到变 量选择的目的,又具有很好的群组效应.
结果对比:
岭回归结果表明,岭回归虽然一定程度上可以拟合模型,但容易导致回归结果失真;lasso回归虽然能刻画模型代表的现实情况,但是模型过于简单,不符合实际。弹性网回归结果表明,一方面达到了岭回归对重要特征选择的目的,另一方面又像Lasso回归那样,删除了对因变量影响较小的特征,取得了很好的效果
原文出处
打开App,阅读手记