Python中两个变量(分类和连续)之间的相关性

我正在为一个简单的问题而苦苦挣扎,我需要检查客户位置是否对缺陷数量有影响。

数据集就是这样。位置有 50 个值,本质上是分类的,缺陷是连续的。

location  defects
a            20
b            30
c            40
d            50
e            60
f            70
g            80


白猪掌柜的
浏览 163回答 2
2回答

慕容3067478

非常简单。您可以使用 将分类转换为数值。LabelEncoder例:from sklearn.preprocessing import LabelEncoderimport numpy as np#datalocation = np.array(['a','b','a'])defects = np.array([1,2,1])# the encoderlb_make = LabelEncoder()converted= lb_make.fit_transform(location) # convert to numericalprint(converted)array([0, 1, 0])np.corrcoef(defects,converted)[0][1]0.9999999999999998

万千封印

所以你基本上想计算(ratio_for_location)=(number_of_defects_for_location)/(total_number_of_whatever_for_location)并检查异常值/找到函数defect_ratio(位置)?
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python