继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

中科院算法研究员带你学算法(2)——线性回归(2)

ForeverRuri
关注TA
已关注
手记 7
粉丝 9
获赞 11

  在上一篇文章中,我们通过最小二乘法得到了线性回归问题中,最优参数的闭式解:
图片描述
但是为什么在优化时使用最小二乘法呢?

从正态分布到最小二乘法

  在这一小节,我们重点阐述所有推导的依据,首先要给出一个关键的定理,中心极限定理,作为后续的基础。

中心极限定理

  中心极限定理说明大量的独立同分布变量共同作用的结果,会逐渐趋近一个正态分布,我们可以认为,也是假设预测值和真实值之间的误差ϵ\epsilonϵ,来源于大量的独立同分布(iid, independently identically distribution)效果的叠加,这里的独立来源于不同干扰项之间相互不影响,但是同分布的要求较为牵强,可认为是由于产生的环境都较为类似故近似认为是同分布,但是正态分布的常见性使得这个假设的适用范围很广,一般会有较好的效果。

可记

图片描述
满足ϵi∼N (μ,σ2)\epsilon_i \sim \bold{N} ~(\mu, \sigma^2)ϵiN (μ,σ2),其中β\betaβ为真实参数。

  而其中误差的均值可以通过bias调整到零,即将bias项增加μ\muμ,则ϵi=y−xiTβ−μ\epsilon_i = y-x_i^T\beta-\muϵi=yxiTβμ,此时其对应的正态分布变为N(0,σ2)\bold{N}(0, \sigma^2)N(0,σ2),成功将分布中心移到原点处。。
  引入了正态分布之后,可以据此进行下一步的讨论。

极大似然估计

使用乘法原理得到如下的联合分布,以描述当前数据集

图片描述

  可认为在类似环境下产生的数据方差一样,即认为ϵi\epsilon_iϵi独立同分布。这个iid的底气就比上面那个假设要强。

  则上式取对数之后有
图片描述

  所以最大化上述概率值,等价于最小化∑ϵi2\sum \epsilon_i^2ϵi2,即等价于使用最小二乘法进行优化。

  至此,我们证明了最小二乘法和正态分布之间的关系,实际上,所有使用mse作为优化指标的任务都默认一个正态分布的先验假设

  显然,ϵ\epsilonϵ和真实值之间的关系可如下表示

图片描述

  即在统计的视角下,给定XXX之后,YYY是一个在预测值附近波动的量,反过来说,给定了数据集即输入输出之后,预测值的出现对应一个概率值,上述的工作就是在最大化这个概率。

  这也意味着,在所有的样本中,一个XXX可能对应不同的YYY

ϵi\epsilon_iϵi同分布,故其方差为
图片描述

YiY_iYi之间没有相关性,则
图片描述
又由
图片描述

ϵi=0\epsilon_i = 0ϵi=0时,意味着输入输出的关系一一对应,否则单一预测值无法同时满足多个不同的输出,此时βls^=β\hat{\beta^{ls}} = \betaβls^=β,是一定值,所以 β^\hat{\beta}β^ 的扰动来源于XXX确定之后YYY的不确定性,有

  • E(ϵ)=0E(\epsilon) = 0E(ϵ)=0
  • var(x)=σ2I,var(Ax)=Aσ2IATvar(x)=\sigma^2I, var(Ax) = A\sigma^2IA^Tvar(x)=σ2I,var(Ax)=Aσ2IAT
  • (XTX)−1XTσ2IX(XTX)−1T=σ2(XTX)−1XTX(XTX)−1T=(XTX)−1σ2(X^TX)^{-1}X^T\sigma^2IX(X^TX)^{-1^T}=\sigma^2(X^TX)^{-1}X^TX(X^TX)^{-1^T}=(X^TX)^{-1}\sigma^2(XTX)1XTσ2IX(XTX)1T=σ2(XTX)1XTX(XTX)1T=(XTX)1σ2

综上有

图片描述

从均方误差到平均值

当我们需要用常数去minimize一个mse时,哪一个会是最合适的数值。
简单的求导看一下。

图片描述
这是一个凸函数,故令上式为0,则有
图片描述


图片描述
所以此时使用均值可以得到最小的均方误差。

  进一步的,如果使用的绝对值误差,此时的常数对应数据集的中位数,这个结论可以依靠去除绝对值符号时,正号和负号数目相等得到。若存在偶数个,记为2K2K2K个样本,则顺序排列后,第KKK和第K+1K+1K+1个样本之间的任意值都可作为最优解。

  进一步结合上述两个小结的内容,其实可以发现,所谓的mse、正态分布和取均值作为最优解,实际上是等价的,这一点在后文说到K-Means时会再次提到。

统计所有出现过的不同输入值XXX,记为Xunique=set(X)X_{unique}=set(X)Xunique=set(X)

遍历集合中的所有元素,则此时,前文所述MSE可改写为

图片描述

  即所有的输入样本,按照取值的不同,可以分为不同的子集,若一共有N=∣Xunique∣N = |X_{unique}|N=Xunique种不同取值,则一共会划分为NNN个子集。

  对应的最优解是在每个子集中,将对应的均值作为预测值。对∀Xj∈Xunique\forall X_j \in X_{unique}XjXunique

图片描述

  对应上文最小二乘法的思路,此时的概率值也最大。但需要说明的是,由于最小化的是整体的损失,这种pointwise的最优解不一定能拟合得到,由模型和数据的特点决定。

  这种pointwise的求均值方式不由得使人想起K近邻算法。
  以针对回归问题的K近邻模型为例,记距离输入样本XXX最近的K个样本组成集合neighbourneighbourneighbour,则
图片描述
  和上式相比,唯一的区别在于进行求均值的样本范围不同,线性回归使用和输入取值相同的样本,而K近邻使用输入的一个邻域范围内的样本。

  则,当样本密度足够大时,即当每一个样本的位置都落入K个样本时,此时利用最小二乘法求解的线性回归和K近邻等价,最近的K个样本都落在输入样本的位置上,求均值的范围从一个邻域缩小为一个点,也即pointwise

最大似然估计和不同的统计学派

首先,给定一个表达式

图片描述

表示在β\betaβ所描述的模型中,事件XXX的概率。

  当XXX是变量时,此表达式为条件概率,而β\betaβ变化时,此表达式称为似然函数,给定一组观测,其概率值随着参数的变化而变化,似然函数就是参数β\betaβ的函数。

  上文中,给定了XXX,选择最佳的参数值,恰恰与此契合。

  以上操作记为极大似然估计(maximum likelihood estimation(MLE)),给出由参数决定的概率值,通过调整参数取值使得当前事件的发生获得最大的概率值,即
图片描述

当前一共有两种较大的统计学派,频率学派贝叶斯学派

  • 频率学派

    认为未知参数是一个固定的数值,可以进行大量重复实验进行逼近得到。但是这存在一定的局限性,这要求事件可以进行重复实验,一来可能没有重复的条件,二来若观测是对于未来进行预测,则实验也无法进行。

    和极大似然估计结合时,由于我们认为参数值固定,需要选择一个确定的值来使得观测到的事件发生的概率最大,这个使得似然函数值最大的参数最有可能是真实的参数值。即

    图片描述

  • 贝叶斯学派

    贝叶斯学派则认为未知变量是一个满足某种先验分布的随机变量。

综上可知,极大似然估计是一种频率学派的算法,贝叶斯学派有其自身的贝叶斯推断

用于解释模型的效果指标—R2R^2R2

  经过上述的论证,在给定了一个列满秩的XXX和对应的YYY之后,可以利用他们求得当前使得MSE最小的参数β^ls\hat{\beta}^{ls}β^ls

引入一个新的指标R2R^2R2
图片描述
其中
图片描述

接下来对R2R^2R2尝试进行理解

  先来看SSTSSTSST,它描述的是所有的输出值之间的方差,即数据的散布情况。

  再来看SSESSESSE,它描述的是预测值和真实值之间的差异,模型训练完毕之后,预测值y^\hat{y}y^在真实值yyy的附近发生不可控的震荡,此时SSESSESSE描述了在固定了模型中所有参数的取值之后,剩下的那部分不受控的变化。

  减少的量,可理解为输出值减少了多少随机性,在多大的程度上被此时的模型解释。

  故,SSTSSTSST描述了数据中输出的方差大小,而SSESSESSE描述了模型训练完毕之后,有多少方差被保留,相应的R2R^2R2实际描述了此模型可以消除,即可以解释多少方差,显然,这个指标越大越好

还有另一个思路:

  当只得到了数据集而未训练得到模型时,若采用mse指标,可使用数据集的均值作为每一个样本的预测值故此时的方差实际也是对此时预测误差大小的描述

  对应的,式21中的SSE即为模型对每一个样本进行预测所产生的误差之和。

  那么R2R^2R2实际也描述了当前模型可以减少多少预测误差,体现了模型的预测能力。

再给出一个在计量统计中常见的统计量
图片描述

β^ls\hat{\beta}^{ls}β^ls使得凸函数SSE最小,即一阶导数为0,则若记
图片描述
则有
图片描述

进一步有
图片描述

其中intersection
图片描述

由式25、26,有
图片描述

y¯\bar{y}y¯为常数,故
图片描述

故式27有
图片描述

因此有
图片描述

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP