我需要计算标记为假/非假的文本中大写字母、特殊标点符号、特定单词的存在之间的相关性。
例如:
Text Label Uppercase Special Punctuation Specific Word
text1 1 1 0 1
text2 0 0 0 0
text3 1 1 1 1
text4 1 1 1 1
text5 0 0 0 1
大写字母、特殊标点符号和特定单词只能取这两个值之一:1 或 0。我想确定与标签相关的这些特征之间的相关性(假=1/非假=0)。我想使用皮尔逊相关系数如下
import numpy as np
# Create correlation matrix
corr_matrix = df.corr().abs()
我可以问你这是否是正确的函数,或者Python中是否有不同的相关函数来计算二进制变量之间的相关性?
侃侃无极
LEATH
相关分类