基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释,只有做出合理的解读,数据的价值才能够体现。数理统计(mathematical statistics)根据观察或实验得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断。
数理统计以概率论为理论基础,但两者之间存在方法上的本质区别。概率论作用的前提是随机变量的分布已知,根据已知的分布来分析随机变量的特征与规律;数理统计的研究对象则是未知分布的随机变量,研究方法是对随机变量进行独立重复的观察,根据得到的观察结果对原始分布做出推断。
在数理统计中,可用的资源是有限的数据集合,这个有限数据集被称为样本(sample)。相应地,观察对象所有的可能取值被称为总体(population)。数理统计的任务就是根据样本推断总体的数字特征。样本通常由对总体进行多次独立的重复观测而得到,这保证了不同的样本值之间相互独立,并且都与总体具有相同的分布。
在统计推断中,应用的往往不是样本本身,而是被称为统计量的样本的函数。统计量本身是一个随机变量,是用来进行统计推断的工具。样本均值和样本方差是两个最重要的统计量:
样本均值:
X−=1n∑Ni=1Xi 样本方差:
S2=1n−1∑ni=1(Xi−X−)2
统计推断的基本问题可以分为两大类:参数估计(estimation theory)和假设检验(hypothesis test)。
参数估计
参数估计是通过随机抽取的样本来估计总体分布的方法,又可以进一步划分为点估计(point estimation)和区间估计(interval estimation)。在已知总体分布函数形式,但未知其一个或者多个参数时,借助于总体的一个样本来估计未知参数的取值就是参数的点估计。点估计的核心在于构造合适的统计量
矩表示的是随机变量的分布特征,
相对于基于大数定律的矩估计法,最大似然估计法源于频率学派看待概率的方式。
在最大似然估计中,似然函数被定义为样本观测值出现的概率,确定未知参数的准则是让似然函数的取值最大化,也就是微积分中求解函数最大值的问题。由于不同的样本值之间相互独立,因而似然函数可以写成若干概率质量函数 / 概率密度函数相乘的形式,并进一步转化为对数方程求解。
矩估计法和最大似然估计法代表了两种推断总体参数的思路,但对于同一个参数,用不同的估计方法求出的估计量很可能存在差异,这就引出了如何对估计量进行评价的问题。在实际应用中,估计量的评价通常要考虑以下三个基本标准。
无偏性:估计量的数学期望等于未知参数的真实值;
有效性:无偏估计量的方差尽可能小;
一致性:当样本容量趋近于无穷时,估计量依概率收敛于未知参数的真实值。
以上三个要求是对点估计量的整体判定标准。无偏性意味着给定样本值时,根据估计量得到的估计值可能比真实值更大,也可能更小。但如果保持估计量的构造不变,而是进行多次重新抽样,每次都用新的样本计算估计值,那么这些估计值与未知参数真实值的偏差在平均意义上等于 0,这意味着不存在系统误差。
虽然估计值与真实值之间的偏差不可避免,但个体意义上的偏差越小意味着估计的性能越精确,有效性度量的正是估计量和真实值之间的偏离程度。而偏离程度不仅仅取决于估计量的构造方式,还取决于样本容量的大小,一致性考虑的就是样本容量的影响。一致性表示的是随着样本容量的增大,估计量的值将稳定在未知参数的真实值上
对估计量的判别标准涉及了估计误差的影响,这是和估计值同样重要的参量。在估计未知参数 θ 的过程中,除了求出估计量,还需要估计出一个区间,并且确定这个区间包含 θ 真实值的可信程度。在数理统计中,这个区间被称为置信区间(confidence interval),这种估计方式则被称为区间估计。
置信区间可以理解为:对总体反复抽样多次,每次得到容量相同的样本,则根据每一组样本值都可以确定出一个置信区间
每个置信区间都存在两种可能性:包含
假设检验
参数估计的对象是总体的某个参数,假设检验的对象则是关于总体的某个论断,即关于总体的假设。假设检验中的假设包含原假设
理想的情况是假设
假设检验的思维方式建立在全称命题只能被证伪不能被证实的基础上。要证明原假设
在数理统计中,发生概率小于
从数理统计的角度看,监督学习算法的任务就是在假设空间中搜索能够针对特定问题做出良好预测的假设。学习器通过对测试数据集的学习得到具有普适性的模型,这个模型适用于不属于测试集的新样本的能力被称为泛化能力。显然,泛化能力越强,学习器就越好。
假设检验的作用就在于根据学习器在测试集上的性能推断其泛化能力的强弱,并确定所得结论的精确程度,可以进一步推广为比较不同学习器的性能。由于度量学习器性能的常用指标是错误率,假设检验中的假设就是对学习器的泛化错误率的推断,推断的依据就是在测试数据集上的测试错误率。
除了推断之外,对泛化性能的解释也是机器学习算法分析的重要内容。泛化误差的构成可以分为三部分:偏差(bias)、方差(variance)和噪声(noise)。
偏差表示算法预测值和真实结果之间的偏离程度,刻画的是模型的欠拟合特性;方差表示数据的扰动对预测性能的影响,刻画的是模型的过拟合特性;噪声表示在当前学习任务上能够达到的最小泛化误差,刻画的是任务本身的难度。对任何实际的模型来说,偏差和方差都难以实现同时优化,反映出欠拟合与过拟合之间难以调和的矛盾。