为什么在 pandas 中获取索引的反向速度如此之慢？

您可以使用.set_indextwice 创建两个具有相反索引顺序的数据帧，并分配以创建您的 inverse_count 列。df = (df.set_index(['from_id','to_id']) .assign(inverse_count=df.set_index(['to_id','from_id'])['count']) .reset_index()) from_id to_id count inverse_count0 X Y 3 2.01 Z Y 4 NaN2 Y X 2 3.0由于问题是关于速度的，让我们看看在更大数据集上的性能：设置：import pandas as pdimport stringimport itertoolsdf = pd.DataFrame(list(itertools.permutations(string.ascii_uppercase, 2)), columns=['from_id', 'to_id'])df['count'] = df.index % 25 + 1print(df) from_id to_id count0 A B 11 A C 22 A D 33 A E 44 A F 5.. ... ... ...645 Z U 21646 Z V 22647 Z W 23648 Z X 24649 Z Y 25设置索引：%timeit (df.set_index(['from_id','to_id']) .assign(inverse_count=df.set_index(['to_id','from_id'])['count']) .reset_index())6 ms ± 24.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)合并：%timeit pd.merge( left = df, right = df, how = 'left', left_on = ['from_id', 'to_id'], right_on = ['to_id', 'from_id'] )1.73 ms ± 57.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)因此，看起来合并方法是更快的选择。

为什么在 pandas 中获取索引的反向速度如此之慢？

2回答