浅谈贝叶斯估计与极大似然估计-原创手记-慕课网

在机器学习当中，我们会经常遇到有关朴素贝叶斯的知识。其出现频率可以说是占据ML的半壁江山。作为热门的概率论的分类方法，有必要对其深入了解。加之前不久的面试笔试部分，有一道简述极大似然和贝叶斯的原理与区别的问题。因此更加加剧了我学习写下这篇文章的想法。下面算是我对知识的整理及认识，不算面面俱到，但也体现了我的整体思路，欢迎读者讨论或指正。

极大似然估计与贝叶斯估计的区别
贝叶斯公式

P(w∣x)=P(x∣w)P(w)P(x) $P (w ∣ x) = \frac{P (x ∣ w) P (w)}{P (x)}$

这里解释一下符号的含义：
x $x$ ：已知条件或者已有的数据
w $w$ ：条件样本,个人理解在某个x $x$ 样本中，w $w$ 为可能存在的行为或者样本。（注意，在极大似然估计中也可理解为要估计的参数，因为两种方法对待w的态度不同，后面会有介绍）
P(w) $P (w)$ ：先验概率
P(x) $P (x)$ ：数据的分布，即某个数据样本在整体出现的概率
P(w∣x) $P (w ∣ x)$ ：后验概率
P(x∣w) $P (x ∣ w)$ ：条件概率或极大似然函数
        关于理解先验和后验两者的概念，这里直接给出链接。里面的例子足够解释其关系。总体概括就是P(B∣A) $P (B ∣ A)$ 以后者A为前提下发生B的概率，反之亦然。
参考链接：https://www.zhihu.com/question/19725590
        贝叶斯估计根据先验概率与已知条件概率（似然函数）计算后验概率，其参数服从某种概率，当数据量较小时，以先验概率作为提高后验概率的基准。
        贝叶斯估计认为事物依据概率分布的，所以在预测某样本数据时，可以依据概率产生的“经验”。无论其是否可靠，这种“经验”都会被作为已知条件。
        相反，极大似然估计靠已有的数据样本从而推测出事物的最有可能的分布概率。所以在数据样本量大的情况下，这种概率更为可靠。两种思想对于概率（在此称其为参数）的态度不同。极大似然估计就是假设一个参数θ $θ$ ，然后根据数据来求出这个θ $θ$ 而贝叶斯估计的难点在于p(θ) $p (θ)$ 需要人为设定。

极大似然估计模型推导
已知样本集D={x1,x2,…,xn} $D = {x_{1}, x_{2}, \dots, x_{n}}$ ，对于样本集的理解有如下例子：假设有一个装了黑色和灰色石头的罐子，从罐子里面每次取一颗石头，取3次，得到2次灰色1次黑色，假设条件独立。则有n=3 $n = 3$ ；记灰色石子为G,黑色为B，则有D={G，G，B} $D = {G ， G ， B}$ ；取到灰色石子概率为θ $θ$ ，则取到黑色1−θ $1 - θ$ 。
我们有P(D∣θ) $P (D ∣ θ)$ 似然函数，则求最大的θ $θ$ ，因此称之为极大似然估计，有公式：

argmaxθP(D∣θ) $\underset{θ}{\arg max} P (D ∣ θ)$

又有：

P(D∣θ)=∏i=1nP(xi∣θ) $P (D ∣ θ) = \prod_{i = 1}^{n} P (x_{i} ∣ θ)$

当P(D∣θ) $P (D ∣ θ)$ 的导数等于0的情况下，可以得到最大的θ $θ$ 。因此上面的例子就有：

P(D∣θ)=P(x1∣θ)P(x2∣θ)P(x3∣θ)=θ∗θ∗（1−θ） $P (D ∣ θ) = P (x_{1} ∣ θ) P (x_{2} ∣ θ) P (x_{3} ∣ θ) = θ * θ * （ 1 - θ ）$

求导：

2θ−3θ2=0 $2 θ - 3 θ^{2} = 0$

得到从罐子中取出石头颜色为灰色的概率 2/3

对于较难求导的似然函数，我们可以选择对数似然函数，根据对数运算可得：

ln∏i=1nP(xi∣θ)=∑i=1nlnP(xi∣θ) $\ln \prod_{i = 1}^{n} P (x_{i} ∣ θ) = \sum_{i = 1}^{n} \ln P (x_{i} ∣ θ)$

从而对右侧进行求导。

网上还有提及到样本成正态分布的对数似然函数推导公式，在此不做列举了。只是在对于样本的方差估计上分无偏估计(unbiased estimator)与有偏估计(biased estimator)。因此，样本方差计算

1n∑i=1n(Xi−μ)2 $\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - μ)^{2}$

当不知道μ $μ$ 的去情况下，可以使用样本平均值X¯¯¯¯ $\bar{X}$ 来计算：

1n−1∑i=1n(Xi−X¯¯¯¯)2 $\frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}$

参考链接：https://www.zhihu.com/question/20099757
链接很好的回答了其中无偏估计比有偏估计更符合常识的原因。

原文出处