在机器学习当中,我们会经常遇到有关朴素贝叶斯的知识。其出现频率可以说是占据ML的半壁江山。作为热门的概率论的分类方法,有必要对其深入了解。加之前不久的面试笔试部分,有一道简述极大似然和贝叶斯的原理与区别的问题。因此更加加剧了我学习写下这篇文章的想法。下面算是我对知识的整理及认识,不算面面俱到,但也体现了我的整体思路,欢迎读者讨论或指正。
极大似然估计与贝叶斯估计的区别
贝叶斯公式
这里解释一下符号的含义:
关于理解先验和后验两者的概念,这里直接给出链接。里面的例子足够解释其关系。总体概括就是
参考链接:https://www.zhihu.com/question/19725590
贝叶斯估计根据先验概率与已知条件概率(似然函数)计算后验概率,其参数服从某种概率,当数据量较小时,以先验概率作为提高后验概率的基准。
贝叶斯估计认为事物依据概率分布的,所以在预测某样本数据时,可以依据概率产生的“经验”。无论其是否可靠,这种“经验”都会被作为已知条件。
相反,极大似然估计靠已有的数据样本从而推测出事物的最有可能的分布概率。所以在数据样本量大的情况下,这种概率更为可靠。两种思想对于概率(在此称其为参数)的态度不同。极大似然估计就是假设一个参数
极大似然估计模型推导
已知样本集
我们有
又有:
当
求导:
得到从罐子中取出石头颜色为灰色的概率 2/3
对于较难求导的似然函数,我们可以选择对数似然函数,根据对数运算可得:
从而对右侧进行求导。
网上还有提及到样本成正态分布的对数似然函数推导公式,在此不做列举了。只是在对于样本的方差估计上分无偏估计(unbiased estimator)与有偏估计(biased estimator)。因此,样本方差计算
当不知道
参考链接:https://www.zhihu.com/question/20099757
链接很好的回答了其中无偏估计比有偏估计更符合常识的原因。