皮尔森类似度(Pearson Similiarity)计算举例与数学特性和存在问题@慕课网原创_慕课网

Pearson Similiarity

皮尔森相关系数（Pearson correlation coefficient）也叫皮尔森积差相关系数（Pearson product-moment correlation coefficient），是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度（在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用）。
皮尔森相关系数计算公式如下：
ρX,Y=cov(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)√E(Y2)−E2(Y)√ $ρ_{X, Y} = \frac{c o v (X, Y)}{σ_{X} σ_{Y}} = \frac{E ((X - μ_{X}) (Y - μ_{Y}))}{σ_{X} σ_{Y}} = \frac{E (X Y) - E (X) E (Y)}{\sqrt{E (X^{2}) - E^{2} (X)} \sqrt{E (Y^{2}) - E^{2} (Y)}}$
分子是协方差，分母是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。

当两个变量的线性关系增强时，相关系数趋于1或-1。正相关时趋于1，负相关时趋于-1。当两个变量独立时相关系统为0，但反之不成立。比如对于y=x2 $y = x^{2}$ ，X服从[-1,1]上的均匀分布，此时E(XY)为0，E(X)也为0，所以ρX,Y=0 $ρ_{X, Y} = 0$ ，但x和y明显不独立。所以“不相关”和“独立”是两回事。当Y 和X服从联合正态分布时，其相互独立和不相关是等价的。

对于居中的数据来说（何谓居中？也就是每个数据减去样本均值，居中后它们的平均值就为0），E(X)=E(Y)=0，此时有：
ρX,Y=E(XY)E(X2)√E(Y2)√=1N∑Ni=1XiYi1N∑Ni=1X2i√1N∑Ni=1Y2i√=∑Ni=1XiYi∑Ni=1X2i√∑Ni=1Y2i√=∑Ni=1XiYi||X||||Y|| $ρ_{X, Y} = \frac{E (X Y)}{\sqrt{E (X^{2})} \sqrt{E (Y^{2})}} = \frac{\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i}}{\sqrt{\frac{1}{N} \sum_{i = 1}^{N} X_{i}^{2}} \sqrt{\frac{1}{N} \sum_{i = 1}^{N} Y_{i}^{2}}} = \frac{\sum_{i = 1}^{N} X_{i} Y_{i}}{\sqrt{\sum_{i = 1}^{N} X_{i}^{2}} \sqrt{\sum_{i = 1}^{N} Y_{i}^{2}}} = \frac{\sum_{i = 1}^{N} X_{i} Y_{i}}{| | X | | | | Y | |}$

进一步当X和Y向量归一化后，||X||=||Y||=1，相关系数即为两个向量的乘积

ρX,Y=X∙Y $ρ_{X, Y} = X ∙ Y$

计算案例

以下以还有一篇文章中的用户-物品关系为例，说明一下皮尔森类似度的计算过程。

皮尔森类似度的原始计算公式为：

不继续展开化简：
计算用户之间的相似度，以usr1与usr5为例
1）定义用户数组（向量）

user1<-c(5.0, 3.0, 2.5)user5<-c(4.0, 3.0, 2.0)12

2）计算方差

var(user1)=sum((user1-mean(user1))^2)/(3-1)=1.75var(user2)=sum((user5-mean(user5))^2)/(3-1)=112

3）计算标准差

sd(user1)=sqrt(var(user1))=1.322876sd(user5)=sqrt(var(user5))=112

4）计算协方差

cov(user1, user5)=sum((user1-mean(user1))*(user5-mean(user5)))/(3-1)=1.25123

5）计算相似度

cor(user1, user5)=cov(user1, user5) / (sd(user1)*(sd(user5)))
=0.9449112123

数学特性和存在问题

以下1）和2）整理自维基百科：

1）代数特性

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X 和 Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且 Y 随着 X 的增加而增加。
系数的值为−1意味着所有的数据点都落在直线上，且 Y 随着 X 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
因两个变量的位置和尺度的变化并不会引起该系数的改变，即它该变化的不变量 (由符号确定)。也就是说，我们如果把X移动到a + bX和把Y移动到c + dY，其中a、b、c和d是常数，
并不会改变两个变量的相关系数（该结论在总体和样本皮尔逊相关系数中都成立）。我们发现更一般的线性变换则会改变相关系数。

2）几何学含义

对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。
对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角theta 的余弦值（见下方）。

3）存在问题

这也就是为什么会导致User1和User4更为相似的原因了，尽管User4只对Item101和103评分，但是这两个评分形成的直线与User1形成的直线趋势更为接近。
同时另一个问题是，如果一些几何变换不会影响相关系数，则评分的高低也被忽略掉了，只是分数的趋势会影响。当然这对于矩阵中都是0和1的用户-物品购买矩阵没有什么影响。