python 中分类的相关性

我有 Python 数据框 df


它有多个列


Salary  Dept      Approve

1500    IT        Yes

1200    Finance   No

1200    IT        No

1300    HR        Yes

1800    Finance   No

1100    Finance   No

1600    Finance   No

1500    IT        Yes

1200    HR        Yes

1500    HR        Yes

我想找到薪资/批准和部门/批准之间的关系


相关性不起作用,因为有些是分类而不是数字


我还有什么其他选择?如何找到薪资/批准和部门/批准之间的相关性


烙印99
浏览 87回答 1
1回答

慕虎7371278

实现此目的的一种方法是将分类变量转换为虚拟变量,然后计算每个变量的相关性:dummies = pd.get_dummies(x)从那里可以轻松计算您喜欢的任何组合之间的相关性:>>> dummies.corr()                Salary  Dept_Finance   Dept_HR   Dept_IT  Approve_No  Approve_YesSalary        1.000000      0.134865 -0.175072  0.030895   -0.047193     0.047193Dept_Finance  0.134865      1.000000 -0.534522 -0.534522    0.816497    -0.816497Dept_HR      -0.175072     -0.534522  1.000000 -0.428571   -0.654654     0.654654Dept_IT       0.030895     -0.534522 -0.428571  1.000000   -0.218218     0.218218Approve_No   -0.047193      0.816497 -0.654654 -0.218218    1.000000    -1.000000Approve_Yes   0.047193     -0.816497  0.654654  0.218218   -1.000000     1.000000或者一个子集:>>> dummies[['Salary', 'Dept_HR']].corr()           Salary   Dept_HRSalary   1.000000 -0.175072Dept_HR -0.175072  1.000000
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python