两个变量相关意味着什么?
这和他们有没有关系或关联是否一样?
这个问题听起来可能有点傻,但实际上不应该这样。这反映了统计学中令人困惑的专业术语。在这种情况下,统计学中的术语虽然看起来与我们日常使用的英语相似,但实际上并不完全相同。
在日常英语里,相关、关联和相联这几个词意思差不多。
技术上讲,关联指的是用相关系数来测量的关联紧密度。
虽然“相关性”是一个技术术语,但“关联”则不是。它仅仅指的是存在某种关联性:一个变量的某些值会和另一个变量的某些值一起出现的倾向。
相关系数相关系数的取值范围在-1到1之间(例如皮尔逊相关系数)。
在这个尺度中,-1 代表完全相反的关系。一个变量的高值通常对应另一个变量的低值。
同样,+1的相关系数描述了完美的正相关关系。一个变量的高值通常与另一个变量的高值相匹配。
0 表示无关联。一个变量的高值往往与另一个变量的高值或低值一起出现。
相关性里没有自变量和因变量之分,它只是对两个变量的一种描述性统计分析。
你可以将这个描述性统计转换成推断性统计。只需计算置信区间或运行假设检验(例如,检验总体相关系数是否等于0)。但相关性本质上是描述性的,因此通常不需要进行额外的检验。
最常用的相关系数是皮尔逊相关系数。通常用 r 这个符号表示,它用来衡量样本中线性关系强度,取值范围从 -1 到 1。
它如此常见,以至于人们常把它和相关性互换使用。
皮尔森相关系数假设这两个变量都是正态分布的。这意味着这两个变量必须是真正的连续变量且没有界限。
但如果你对其他变量间的关系感兴趣,别担心。还有其他的相关系数,这些系数不需要变量满足正态分布的条件。
示例包括Spearman等级相关、点二列相关、等级二列相关、四分相关以及多项相关。
相关,但不是因果关系还有其他关联度量指标不具备完全相同的属性。当其中一个或两个变量为有序或名义变量时,这些方法也适用。
它们包括 phi、gamma、Kendall 的 tau-b、Stuart 的 tau-c、Somer 的 D 以及 Cramer 的 V 等指标。
所以总结一下,有很多关联度量的方法,不过只有其中一些是相关性。但是,统计学中的术语意义有时并不一致,因此最好明确你所使用术语的具体含义。