R 和 Python 之间 cov 和 cor 的区别

首页课程实战体系课手记专栏慕课教程

R 和 Python 之间 cov 和 cor 的区别

我经常使用 R 并且我是 Python 的新手。在R中，计算给定矩阵的均值、cov和cor的演示如下：

X = matrix(c(1,0.5,3,7,9,6,2,8,4), nrow=3, ncol=3, byrow=FALSE)

X

# [,1] [,2] [,3]

# [1,] 1.0 7 2

# [2,] 0.5 9 8

# [3,] 3.0 6 4

M = colMeans(X) # apply(X,2,mean)

M

# [1] 1.500000 7.333333 4.666667

S = cov(X)

S

# [,1] [,2] [,3]

# [1,] 1.75 -1.750000 -1.500000

# [2,] -1.75 2.333333 3.666667

# [3,] -1.50 3.666667 9.333333

R = cor(X)

R

# [,1] [,2] [,3]

# [1,] 1.0000000 -0.8660254 -0.3711537

# [2,] -0.8660254 1.0000000 0.7857143

# [3,] -0.3711537 0.7857143 1.0000000

我想在 Python 中重现上述内容，然后尝试：

import numpy as np

X = np.array([1,0.5,3,7,9,6,2,8,4]).reshape(3, 3)

X = np.transpose(X) # byrow=FALSE

X

# array([[ 1. , 7. , 2. ],

# [ 0.5, 9. , 8. ],

# [ 3. , 6. , 4. ]])

M = X.mean(axis=0) # colMeans

M

# array([ 1.5 , 7.33333333, 4.66666667])

S = np.cov(X)

S

# array([[ 10.33333333, 10.58333333, 4.83333333],

# [ 10.58333333, 21.58333333, 5.83333333],

# [ 4.83333333, 5.83333333, 2.33333333]])

R = np.corrcoef(X)

R

# array([[ 1. , 0.70866828, 0.98432414],

# [ 0.70866828, 1. , 0.82199494],

# [ 0.98432414, 0.82199494, 1. ]])

那么cov和cor的结果就不一样了。为什么？

慕容708150

浏览 548回答 3

3回答

慕妹3242003

这是因为numpy按行和R列计算。要么注释掉X = np.transpose(X) # byrow=FALSE，要么使用np.cov(X, rowvar=False).np.cov(X, rowvar=False)     array([[ 1.75      , -1.75      , -1.5       ],        [-1.75      ,  2.33333333,  3.66666667],        [-1.5       ,  3.66666667,  9.33333333]])各自的文档（强调我的）中解释了差异：Python：help(np.cov)rowvar : bool，可选如果rowvar为 True（默认），则每一行代表一个变量，在列中观察。否则，关系被转置：每一列代表一个变量，而行包含观察。回复：?covvar、cov 和 cor 计算 x 的方差以及 x 和 y 的协方差或相关性（如果它们是向量）。如果x和y是矩阵，则之间的协方差（或相关性）列X和Y的列计算的。

0 0

精慕HU

如果我不在 Python 中转置数组，那么我会得到完全相同的答案。协方差是按行计算的（X[0]返回第一行），我怀疑 R 以 Fortran 顺序存储数据，而 Python/Numpy 使用 C 顺序。这解释了mean计算方式的不同，第一个轴是 Python 中的行，而不是列。

0 0

随时随地看视频慕课网APP

相关分类

Python