继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

机器学习 西瓜书 Day16 计算学习理论

蓝山帝景
关注TA
已关注
手记 284
粉丝 45
获赞 149

p267 - p292
今天一定要早睡!= =
这一章挺枯燥的= =

第12章 计算学习理论

12.1 基础知识

计算学习理论研究的是关于通过“计算”来进行“学习”的理论
即关于机器学习的理论基础
目的是分析学习任务的困难本质,并根据分析结果指导算法设计。

泛化误差 vs 经验误差 数学定义(p267)
若样本符合独立同分布,则经验误差的期望等于其泛化误差。

定义泛化误差的上界:称为误差参数

对任意两个映射,可通过其“不合”来度量他们之间的差别(见p267)

给出了三个常用不等式
Jensen不等式、Hoeffding不等式、McDiarmid不等式。
见p268

12.2 PAC学习

PAC:概率近似正确学习理论。

PAC学习给出了一个抽象刻画机器学习能力的框架。

学习算法是否“可分”?

给出了几个定义:
定义12.1 PAC辨识
定义12.2 PAC可学习
定义12.3 PAC学习算法
定义12.4 样本复杂度

12.3 有限假设空间

12.3.1 可分

可分意味着目标概念c属于假设空间H
得到一个结论:
有限假设空间H都是PAC可学习的。

12.3.2 不可分情形

当c不属于H时,学习算法是无法学得目标概念c的ε近似。
但是当假设空间H给定时, 其中必存在一个泛化误差最小的假设。
找到这个假设也是个不错的选择。
这称为“不可知学习”

12.4 VC维

现实中任务大多是无限假设空间。
如实数中的所有区间。
这时需要度量假设空间的复杂度,用到的是"VC维“

概念1.增长函数

表示假设空间H对m个示例所能赋予标记的最大可能结果数。

概念2.对分

H中的假设对D中示例赋予标记的每种可能结果称为对D的一种"对分"

概念3.打散

若假设空间H能实现示例集D上的所有对分,则称D能被H打散。

大概念.VC维

H的VC维是能被H打散的最大示例集的大小。
VC维的定义与数据分布D无关!

p275的两个例子。很形象。
例12.1 实数域中的区间[a,b]
例12.2 二维实平面上的线性划分

p275-278一堆定理。
定理12.4 任何VC维有限的假设空间H都是不可知PAC可学习的。

12.5 Rademacher复杂度

VC维不考虑数据分布,使得普适。但对于特殊情况就很不好。

Rademacher复杂度,另一种刻画假设空间复杂度的途径。
它在一定程度上考虑了数据分布。
p279 - 284

12.6 稳定性

基于12.4和12.5来推到泛化误差界,所得到的结果都和具体的学习算法无关。
但在另一方面,若希望获得与算法有关的分析结果
可以考虑“稳定性”。

稳定性考虑的是
输入发生变化时,输出是否会随之发生较大的变化。

p285定义了两种变化方式,与稳定性的定义。

休息一会儿

计算学习理论是机器学习的一个分支,它可认为是机器学习与理论计算机科学的交叉



作者:皇家马德里主教练齐达内
链接:https://www.jianshu.com/p/039d8d0ff35e


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP