如何做推论统计分析报告？-原创手记-慕课网

webp

看本文内容前，确保你已经学过之前文章中的“假设检验”：

如何用最通俗易懂的方式理解假设检验

前面我们通过《假设检验的第1种类型：如何使用Python实现单样本检验？》得到了单样本假设检验的结果。如何写假设检验的分析报告呢？

对很多科学来说，我们使用APA格式来报告假设检验的结果。APA表示的美国心理学会，APA格式是美国心理学会给出了如何撰写研究论文的完整指南，其中一部分告诉我们如何写出推论统计学结果。

在报告假设检验时，需要告诉读者以下几点信息：

1）检验类型

在此示例中是单样本t检验，接着在括号中写出自由度，写上等号，然后给出t值，保留两位小数。

对于比例来说，我们不在这里的开头写上0，如果值不大于1，这里不用写0。

2）给出p值，同样保留两位小数

并在括号后面始终让读者知道你在做出结论时使用的显著性水平。

3）指明检验方向。是单尾检验还是双尾检

下图中我给出了这个汽车引擎排放案例中的假设检验报告格式。

独立样本t(9)=-3.00, p=.0074(α=5%),单尾检验（左尾）：

t(9)=-3.00,p=0.0074,独立样本t检验,左尾

webp

在写推论统计报告时，我们往往还要给出置信区间。

1）计算置信区间公式中的t值要和前面假设中的t值区别开。这里的t值是用置信水平95%查找t表格得到的，所以这里加了后缀ci。

查t表格可以得到，95%的置信水平对应，自由度是9对应的t值=0.0645

2）计算上下限

置信区间上限a=样本平均值 - t_ci ×标准误差

置信区间下限b=样本平均值 - t_ci ×标准误差

webp

在报告告置信区间时，要提供3个信息：

1）开头会说是哪种类型的置信区间

例如在单样本检验中是单个平均值的置信区间，但是在我们后面要讲到的相关样本检验是两个平均值之间差异的置信区间。

2）置信水平

3）给出置信区间的上下限。置信区间（简写为CI），括号里写上下限。

在这个案例里，我们是单个平均值的置信区间

webp

我们还需要在报告中给出效应量（effect size）。什么是效应量呢？

效应量用来指出差异的大小。衡量效应量的指标有很多种，但大多数都属于两大主要类别。

1）第一种叫做差异指标

例如在对比平均值时，衡量效应大小的常见标准之一是Cohen's d

Cohen‘s d 用于衡量2组数据之间的平均值差异，Cohen‘s d = （第1组数据的平均值-第2组数据的平均值) / 标准差。

Cohen‘s d 除以的是标准差，也就是以标准差为单位，2个平均值之间相差多少。

2）第二种叫做相关度指标

例如R平方，表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式，这里的t值从t检验中获得的值，df是自由度。

r2=t2 / (t2+df),其中r2是指r的平方，t2是t的平方

如果r平方等于20%，表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况

为什么要给出效应量？

在判断某个调查研究的结果是否有意义或者重要时，我们需要通过统计显著和效应量一起来衡量。

在假设检验中，当拒绝了零假设，我们说统计显著，统计显著说明有差异。但差异有多大呢？就需要用效应量来看效果是否显著。

在评估结果的意义时，要考虑的另一项指标是效应量。有时候具备了显著水平，但是效应量太小，也缺乏实用价值。

例如，我们通过对一个资源耗费10倍以上的推荐算法进行优化，得到的结论是具有统计显著。

那么是不是我们就要系统上线使用优化后的算法？

通过计算效应量，我们发现算法优化的效果只对收入提升了万分之一，但是算法耗费的资源需要增大10倍以上，收入只得到了非常微小的提升。

那么从整体看来这个优化带来的商业效果其实效率量是很小的，所以统计显著不代表效果显著。

因此，在假设检验中，我们给出了是否具有统计显著性，也要给出效应量，一起来判断研究结果是否有意义。

webp

对于我们这个案例里的单样本t检验，Cohen‘s d=(样本平均值-总体平均值)/样本标准差。

最后我们得到差异指标Cohen‘s d=-0.95，说明样本平均值和总体标准值差0.95个样本标准差

webp

现在，我们总结下，推论统计分析报告包括哪些内容。

webp

通过汽车引擎排放案例，我们完成了整个假设检验的过程。现在是到了写数据分析报告的最后阶段了。

在分析报告中，我们一般会先写出描述统计分析，比如平均值，标准差等。

然后写出推论统计分析，在这部分包括假设检验，置信区间，还有效应量。

这里有两个概念会经常混淆。那就是统计显著，和效果显著。

在假设检验中，当拒绝了零假设，我们说有统计显著，统计显著的意思是有差异。比如汽车引擎排放案例里有统计显著，说明公司汽车排放和规定的新标准之间有显著差异。

有了统计显著，我们接下里才会看去看效果是否显著，也就是有了差异，才会看差异的大小。如果没有差异，就不需要看差异大小。

所以如果没有拒绝零假设，计算效果显著是没有意义的。因为都没有差异。

简单来说，一般我们会用假设检验来看统计显著，如果有了统计显著，我们才会用效应量看效果显著。

当你时间长了忘记什么是统计显著，效果显著，那就拿出上图，看到统计显著等于是否有差异，效果显著等于差异大小。就明白了。

下面图片是汽车引擎排放案例的分析报告。

webp

你也可以在我的知乎live中找到全部课程《数据分析必懂的假设检验》。

作者：猴子聊人物
链接：https://www.jianshu.com/p/8e87f56f2214