20181212总结统计学知识汇总,输出倒逼输入
学习时间:6:30—7:30,10:10—1:40 累计学习4小时
学习内容:假设检验、相关性、统计学知识汇总
仰卧起坐:100个
6:05分起床
今天薇薇过来了,10:10开始学习,房间的东西被她翻了2遍
总结内容:
掌握内容:条件概率、贝叶斯公式、相关独立、几何分布(超几何分布)、泊松分布、正态分布、统计抽样、估计、置信区间、假设检验
学习标准:理解公式、会推导公式
整理中还未更新完,文中除介绍主要掌握内容外,还补充部分概率知识作为了解。可选择性的查看。
前言:统计概率与数据挖掘的关系?理论上统计概率是数据挖掘基础,统计更多是教会我们如何使用统计的思维面对数据分析数据。概率描述的是一种不确定性。
一、概率
1、条件概率公式
设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率为:P(A|B)=P(AB)/P(B)
2、乘法公式
假发法则用来计算两个事件的并的概率,而乘法公式则是用来计算两个事件交的概率
P(AB)=P(A|B)P(B)=P(B|A)P(A)
3、全概率公式
定义:如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有
P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)。
或者:p(A)=P(AB1)+P(AB2)+...+P(ABn)),其中A与Bn的关系为交
理解:“B已经发生的条件下,A发生的概率”,这句话中,“B已经发生”就相当于已经把样本的可选范围限制在了圆圈B中,其实就等价于这句话:“在圆圈B中,A发生的概率”,显然P(A|B)就等于AB交集中样本的数目/B的样本数目。为什么这里用的是样本的数目相除,而上面的公式却是用的概率相除,原因很简单,用样本数目相除时,把分子分母同除以总样本数,这就变成了概率相除。
4、贝叶斯公式
定义:贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性
定义:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现,且已知条件概率P(A/H[i]),求P(H[i]/A)
理解:与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率)
在条件概率讨论中,我们指出在获得新的信息之后对概率进行修正是重要的概率分析手段。通常,总是对所关心的特定事件估计一个初始或先验概率。当我们从样本获取了有关该事件的新信息时,就能根据这些新增的信息系计算修正概率。更新先验概率值得出后验概率。贝叶斯定理提供了进行这种概率计算的一种方法。
5、相关独立
随机变量的相关性和独立性是随机变量两个最重要的关系。
独立性:两个随机变量发生的概率互不 影响
相关性是指两个随机变量之间的线性关系,不相关只是说明它们之间不具有线性关系,但是可以有别的关系,所以不一定相互独立。
如果两个随机变量独立,就是说它们之间没有任何关系,自然也不会有线性关系,所以它们不相关。反过来说如果两个随机变量相关,也就是说它们之间有线性关系,自然不独立。
6、随机试验
定义:如果试验可以在相同的条件下重复进行;试验所有可能结果是明确可知道的,并且不止一个;每一次试验会出现哪一个结果事先不能确定.称一个试验为随机试验
7、 古典概型
定义:如果其基本事件空间(样本空间)满足有限个基本事件(样本点);每个基本事件(样本点)发生的可能性都一样.称随机试验(随机现象)的概率模型为古典概型.
如果古典概型的基本事件总数为 n ,事件 A 包含 k 个基本事件,即有利于 A 的基本事件 k个.则 A 的概率定义为
P(A)= K / n =事件A所含基本事件的个数 / 基本事件总数
二、离散型概率
1、两点分布
定义:两点分布是一次实验,成功的概率是p,失败的概率是1-p
2、二项分布B(n,p)
定义:二项分布是n次实验每次实验服从两点分布,成功概率为p,失败概率为1-p。B(n,p) 二项分布是放回抽取(独立重复)
定义:二项分布就是重复n次独立的试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验称为n重伯努利实验(二项分布)理解:N次试验,每次试验两个结果。EG:连续N 次抛硬币
3、超几何分布
定义:一共有N个不同元素,包括M个特殊元素,从中取n个成功抽出特殊元素的概率。(不放回抽样)
理解:N件产品,合格M,不合格N – M,取三件恰有一件合格。
4、泊松分布
定义:在任意两个相等长度的区间上,事件发生的概率相等,事件在某一区间上是否发生与事件在其他区间上是否发生时独立的
理解:当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数
小结:文章初步整理,明日进行文字排版的相关更新
明日计划
1、 统计知识汇总并发布排版
2、 学习4小时
3、 5:50起床
作者:夜希辰
链接:https://www.jianshu.com/p/fc90648e1d8a