pandas 数据帧的共现矩阵

问题

我有一个 pandas 数据框,我需要计算数据框中每个唯一条目出现在每个其他条目的同一行中的行数。

可重复的设置

import pandas as pd
import numpy as np

数据框:


df = pd.DataFrame({'a': ['A', 'A', 'B', 'B'],

                   'b': ['B', 'C', 'B', 'B'],

                   'c': ['C', 'A', 'C', 'A'],

                   'd': ['B', 'D', 'B', 'A']},

                   index=[0, 1, 2, 3])

IE:


+----+-----+-----+-----+-----+

|    | a   | b   | c   | d   |

|----+-----+-----+-----+-----|

|  0 | A   | B   | C   | B   |

|  1 | A   | C   | A   | D   |

|  2 | B   | B   | C   | B   |

|  3 | B   | B   | A   | A   |

+----+-----+-----+-----+-----+


我尝试过的

我尝试使用answer 中的代码,& 替换这些变量:

document = [list(each) for each in df.values]

names = list(np.unique(df.values))

它给出了错误的结果:


  A B C D

A 4 6 3 2

B 6 10 5 0

C 3 5 0 1

D 2 0 1 0

它是基于迭代的,所以我希望有更好的解决方案。


预期输出

+----+-----+-----+-----+-----+

|    |   A |   B |   C |   D |

|----+-----+-----+-----+-----|

| A  | nan |   2 |   2 |   1 |

| B  |   2 | nan |   2 |   0 |

| C  |   2 |   2 | nan |   1 |

| D  |   1 |   0 |   1 | nan |

+----+-----+-----+-----+-----+

有些2行同时出现A& B,因此单元格A行列中的B值为2。有些2行同时出现A& C,因此单元格A行列中的C值为2。


问题

如何在 Pandas 中轻松获得行共现矩阵?如果我不必循环遍历这些值,那就太好了。


四季花海
浏览 91回答 1
1回答

守着星空守着你

我们可以做stack然后get_dummies有价值dots=df.stack().str.get_dummies().sum(level=0).ne(0).astype(int)s=s.T.dot(s).astype(float)np.fill_diagonal(s.values, np.nan)sOut[33]:      A    B    C    DA  NaN  2.0  2.0  1.0B  2.0  NaN  2.0  0.0C  2.0  2.0  NaN  1.0D  1.0  0.0  1.0  NaN
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python