Pandas-创建差异矩阵的数量

我有这样的数据框


    L1  L2  L3  L4  L5

A   1   2   3   4   5

B   1   2   4   3   5

C   1   3   3   2   1

我想计算行之间的差异数,例如A和B之间的差异数是2,A和C是3,B和C是4。


我真正想要的是一个差异矩阵,例如


    A   B   C

A   0   2   3

B   2   0   4

C   3   4   0


皈依舞
浏览 117回答 1
1回答

MMMHUHU

第一个循环解决方案是迭代每一行,通过 DataFrame 进行比较sum:df = df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)print (df)   A  B  CA  0  2  3B  2  0  4C  3  4  0或者为了提高性能,将 numpy 中的值与 3d 数组的广播进行比较,sum 和 last 使用 DataFrame 构造函数:a = df.to_numpy()out = pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)print (out)   A  B  CA  0  2  3B  2  0  4C  3  4  0np.random.seed(123)df = pd.DataFrame( np.random.randint(20, size=(100, 500)))print (df)In [119]: %%timeit     ...: df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)     ...:      ...: 12.8 s ± 1.02 s per loop (mean ± std. dev. of 7 runs, 1 loop each)In [120]: %%timeit     ...: a = df.to_numpy()     ...: pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)     ...:      ...: 14.6 ms ± 325 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python