手记

泊松分布与指数分布的重新理解

写在前面的话

组会上有人提到了几种概率分布,当时我听到的感觉就是“啊,我每一个都听过,也学过,但是都忘记了细节”。于是,会后又跑去wiki了一番,回忆了以前概率课上学的东西。记得当时学概率分布时,有几种分布是真的无法理解(至少在当时的思维下,我感觉是没有理解的),而且做题时常常陷入一种局部思维,把几种分布搞混淆。过了一两年,重新来看以前学过的东西,发现顿时有了更深的理解(我也不知道为什么,可能这就是所谓的“书读百遍其义自见”,但是也不是读一百遍就一定能懂,我觉得当时我把概念背了很熟,但有些还是不能很好地理解。

所以,现在重新整理下以前似懂非懂或者没注意的概念。


随机变量

如果说要举出在概率论中出现频次最高的术语,随机变量绝对是位列三甲的。但是一个出现频次这么高的术语,而且也是概率论这门课一上来老师就强调的概念,我对其的理解却是很肤浅的。

从初等概率论出发。

如果X指定概率空间S中每一个事件e都有一个实数X(e),同时针对每一个实数r都有一个事件集合Ar与其相对应,其中Ar=e:X(e)≤r,那么X被称为随机变量。 – wikipedia

从上面的定义可以看到,随机变量其实不是一个变量,而是一个函数,是将概率空间S中每一个事件e映射到一个实数r上的函数。如下图所示:

举个栗子

随机投掷两个骰子,那么整个样本空间可以由36个元素组成:

S=(i,j)|i=1,…,6;j=1,…,6


很明显这里可以构成多个随机变量。比如随机变量X(投掷后两个骰子的点数之和)或者Y(投掷后两个骰子的点数之差),随机变量X可以有11个整数值,而随机变量Y只有6个。

X(i,j):=i+j,x=2,3,…,12


Y(i,j):=|ij|,y=0,1,2,3,4,5.


从上面的这个例子可以看到,随机变量们将原样本空间中的事件映射到了整数空间。

下面就正式进入正题来讲下我对泊松分布和指数分布的重新理解。因为其他几个分布还比较简单易懂,而泊松分布和指数分布不好懂而且它们也相似,故单独挑这两个出来。

泊松分布

Poisson分布,是一种统计与概率论中常见的离散概率分布,由法国数学家Siméon-Denis Poisson在1838年发表。其适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。 –wikipedia

泊松分布的概率质量函数:

P(X=k)=eλλkk!


泊松分布的参数λ单位时间(或单位面积)内随机事件的平均发生率

在概率论中,概率质量函数(probability mass function,简写为pmf)是离散随机变量在各特定取值上的概率。概率质量函数和概率密度函数不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。

泊松分布的累积分布函数:

P(Xk)=eλki=0λii!


下面分别给出其概率质量函数和累积分布函数的图像:

对着上述图像解释,每个点的意义就是单位时间或面积内随机事件发生k次的概率。

对着上述图像解释,每个点的意义就是单位时间或面积内随机事件发生次数小于等于k次的概率。

指数分布

泊松分布,我觉得相对来说还好理解一些。而指数分布就有点那么绕了,不过我觉得结合其概率密度函数图和累积分布函数图来看,就好理解一些了。

在概率论和统计学中,指数分配(Exponential distribution)是一种连续概率分布。指数分配可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。  –wikipedia

首先注意到,与泊松分布相比,其最大的差异就是指数分布是针对连续随机变量定义,即时间这个变量。时间必须是连续的。而泊松分布是针对随机事件发生次数定义的,发生次数是离散的。粗略地可以认为这两个分布之间有一种“倒数”的关系。

指数函数的概率密度函数:

p(x;λ)=λeλx,x∈[0,+∞)


其中,λ>0是该分布的一个参数,称为率参数(rate parameter)。即每单位时间内发生该事件的次数。读到这里,可能因为这个率参数被搞得一头雾水,容易跟泊松分布混淆。

指数分布的累积分布函数:

p(x;λ)=1−eλx,x∈[0,+∞)


估计还是一头雾水,下面结合指数分布的概率密度曲线和累积分布曲线图,就稍微能理解下了(至少我是这么认为:

上述第二幅图像正是指数分布的累积分布函数图,对着图来看能更好的理解指数分布。

1.先看λ=1.0这条曲线。关注到这条曲线上横坐标为1的点,其意义是1个单位时间该事件发生1次的概率。如果是横坐标为2的点,则其意义便是2个单位时间内该事件发生1次的概率。换个方法说,就是第k次该事件发生后隔2个单位时间发生第k+1次该事件的概率。

2.再看λ=1.5这条曲线。与上述描述类似,先关注到这曲线上横坐标为1的点,其意义是1个单位时间内该事件发生1.5次的概率(次数居然是1.5次???理论上确实可以这么说,只是不好理解,如果换成整数次就可能更好理解)。如果是横坐标为2的点,其意义便是2个单位时间内该事件发生1.5次的概率。同样地,换个说法,也就是第k次该事件发生后隔2个单位时间该事件发生第k+1.5次的概率。

我觉得通过上述对图的表述,能进一步加深对指数分布的理解了。


结论

首先,这两个分布最大的不同是,泊松分布是针对随机事件发生次数的定义的离散随机变量,而指数分布是针对随机事件发生的间隔时间定义的连续随机变量,这是二者最大的区别。切莫因为参数λ把二者混淆了。

原文出处

0人推荐
随时随地看视频
慕课网APP