Ensemble Learners@慕课网原创_慕课网

Boosting Algorithm

不需要绞尽脑汁去想很复杂的 Rules，只需要一些简单的 Rules，这就是 Ensemble 的基本主张，先找到简单的规则，每一条都有意义，但是单独应用都无法给出最佳答案，然后将这些规则结合起来成为一个 Complex Rule，最后可以找到足够好的答案。

比如：
Spam Email 是一个分类问题，除了用 Decision Tree，KNN，NN，还可以用 Boosting。

基本流程是：训练数据集的一个子集，得到一个 simple rule，再训练另一个子集，得到另一个 rule，训练多个后，得到多个 simple rule，让后将它们结合起来。

例如：只训练有图片的邮件集，只训练有链接的邮件集，它们对于自己的相应的子集是足够好的，但是不是必须要对整个数据集很好。
如果用整个数据集来训练的话，会很难发现这些 simple rule。

训练子集和综合，这两步都可以由最简单的方法去完成，比如在训练每个子集时，得到10个数值，那最后就可以取平均值作为最终结果。

Bagging

随机取点再去平均的方法叫做 Bagging 或者 Bootstrap Aggregation

例如：
红色是训练数据集，绿色是测试数据，这是简单的 Cross Validation。
1.随机抽取一个子集，每次随机抽5个点，一共抽5次，并且每次的数据集不重复
2.要训练3阶多项式
3.最后取平均值

比较不同方法得到的结果：
红色：是用平均值算出的 Ensemble 的三阶结果
蓝色：是用四阶回归出来的
结果是：蓝色在 Training 集上表现比红色好，而红色在 Testing 集上比蓝色好

Boosting详细

比起随机挑取子集，我们应该看看我们想要学习的是什么，去挑取我们不擅长的数据，也就是这些例子是不是很难。

1.什么是hard problem
2.怎样确保已经训练过的子集不再被训练

Error
如果是 vote，就是正确的有多少，错误的有多少
如果是 value，就是类似于 mean squared error

只有当 Testing 和 Training 有相同的分布时，学习算法才会比较有效，

D：Distribution，这些 error 一定是符合某种分布的
h：hypothesis，是学习算法的结果
c：concept，是真正的结果
所以 Error 的定义是，在一个 Distribution 下，h 不等于 c 的概率

和错误个数算出来的区别是，有些是重要的，需要去学习的，有些是不重要的，而且这个概率表示的是有多少时候是对或者错的。

Weak Lerner：不管你的分布是怎样的，得到的 Error 都小于0.5，

每一列代表一个 hypothesis，每一行代表 instance space 的一个，即一共有4个example，要在三个h中找到 weak learner，也就是 error 大于0.5.

good：
如果四个 example 都有相同的 weight，那么 h1 有三个对的，比0.5好，
evil：
如果把所有的 weight 都放在 x1 上，那么 h1,h2 做的特别差，但是 h3 做的特别好，同理，看 x2－x4，总是能找到某个 h 得到好的结果，所以可能并没有 evil distribution。
但其实，如果选择 h1-h3，它们都有50%的error，

下面这个是个没有 weak learner 的例子：

Boosting Algorithm

循环内：
建立分布：是建立在某个时间t的examples之上的
在这个分布上：找到 weak classifier，这个 weak learner 的 output 是某个 hypothesis（ht），这个 hypothesis 是有一些小 error 的，并不是非常小，而是只要小于 0.5 即可，
它在当前分布的 training 数据集上表现还好
在当前分布下，它错误的概率很小：也就是和 training lable 不同的概率是小的
经过循环，将找到最终的 hypothesis。

High Level Boosting：

1.如何找到 weak classifier
2.怎样找到 distribution，怎样找到 final hypothesis

例如：
最开始什么都不会的时候，分布可以是 uniform，得到 D1
递推式解释：
下一步的分布是以上一步为基础，根据当前的 hypothesis 表现的有多好，来变大或者变小，
yi 和 ht 都是返回＋1 或者－1，所以当二者 agree 时，结果是1，否则结果是－1.
alpha 是正数，
所以 e 上面的指数，要么大于0，要么小于0，
那这个系数对 D 的影响就是，要么增，要么减。

?Final Hypothesis

如何得到 final hypothesis？
weighted average － conbination
weight ＝ alpha t

sgn是个函数，ht是weak classifier，alpah t的公式如上图，和 underlining error 相关，如果你训练的好，weight就大，否则就小。

3 boxes 例子：
square rigon，要分类
先确认 hepothesis 的空间：在二维空间里，这个H要么是横向，要么是纵向，它的一边是正的，另外一边是负的

第一个图里，这个 classifier，左边都是正的，负的都在右边，但是有三个正的被分到了右边

所以在下一个 distribution，会发生什么呢？
被分配正确的点其 weight 比较小，分配错的点其 weight 比较大
然后继续得到第二个 output，它只把 3个负的弄错了，剩下5个红的在左边，两个负的在右边

继续在下一个 distribution里，中间的3个负的，因为划分错了，它们变得更突出，中间的3个正的，分对了，所以权重减小，但是仍然比最开始的要突出，比如最左边的2个正的，一直都被划分正确，那他们会消失

如上图，最后得到三个 hypothesis，将它们 combine 在一起，只是简单的 sum，就可以发现得到一个非常漂亮的分界线，将正负分开，这个效果很像 Decision Tree，Neural Network，和 Weighted Nearest Neighbor

为什么 boosting 好用？