我有一个 pandas 数据框,我需要计算数据框中每个唯一条目出现在每个其他条目的同一行中的行数。
import pandas as pd import numpy as np
数据框:
df = pd.DataFrame({'a': ['A', 'A', 'B', 'B'],
'b': ['B', 'C', 'B', 'B'],
'c': ['C', 'A', 'C', 'A'],
'd': ['B', 'D', 'B', 'A']},
index=[0, 1, 2, 3])
IE:
+----+-----+-----+-----+-----+
| | a | b | c | d |
|----+-----+-----+-----+-----|
| 0 | A | B | C | B |
| 1 | A | C | A | D |
| 2 | B | B | C | B |
| 3 | B | B | A | A |
+----+-----+-----+-----+-----+
我尝试使用answer 中的代码,& 替换这些变量:
document = [list(each) for each in df.values]
names = list(np.unique(df.values))
它给出了错误的结果:
A B C D
A 4 6 3 2
B 6 10 5 0
C 3 5 0 1
D 2 0 1 0
它是基于迭代的,所以我希望有更好的解决方案。
预期输出
+----+-----+-----+-----+-----+
| | A | B | C | D |
|----+-----+-----+-----+-----|
| A | nan | 2 | 2 | 1 |
| B | 2 | nan | 2 | 0 |
| C | 2 | 2 | nan | 1 |
| D | 1 | 0 | 1 | nan |
+----+-----+-----+-----+-----+
有些2行同时出现A& B,因此单元格A行列中的B值为2。有些2行同时出现A& C,因此单元格A行列中的C值为2。
问题
如何在 Pandas 中轻松获得行共现矩阵?如果我不必循环遍历这些值,那就太好了。
守着星空守着你
相关分类