应用于 Pandas DataFrame 的*交错*组

df = pd.DataFrame( [[0, 1, 2, 0], [-1, 0, 1, 0], [-2, 0, 3, 1], [1, 1, 3, 1], [1, 0, 2, 2], [1, 0, 3, 2], [6, 2, 1, 5], [-4, 3, 0, 5], [1, 0, -1, 6], [0, 0, 3, 6]], columns = ['x', 'y', 'z', 'member'])

4K 行的交叉合并还不错（产生大约 16M 行）。让我们尝试交叉合并和查询：n = 2# dummy keydf['dummy'] = 1# this is the member group numberdf['rank'] = df['member'].rank(method='dense')# cross merge and filternew_df = (df.merge(df, on='dummy')            .query('rank_x<rank_y<=rank_x+@n')         )# euclidean distancedist = (new_df[['x_x','y_x','z_x']].sub(new_df[['x_y','y_y','z_y']].values)**2).sum(1)**.5# output dataframe with member labelpd.DataFrame({'member1':new_df['member_x'], 'member2':new_df['member_y'],              'dist':dist})输出：    member1  member2      dist2         0        1  2.4494903         0        1  1.4142144         0        2  1.4142145         0        2  1.73205112        0        1  2.23606813        0        1  3.00000014        0        2  2.23606815        0        2  2.82842724        1        2  3.16227825        1        2  3.00000026        1        5  8.48528127        1        5  4.69041634        1        2  1.41421435        1        2  1.00000036        1        5  5.47722637        1        5  6.16441446        2        5  5.47722647        2        5  6.16441448        2        6  3.00000049        2        6  1.41421456        2        5  5.74456357        2        5  6.55743958        2        6  4.00000059        2        6  1.00000068        5        6  5.74456369        5        6  6.63325078        5        6  5.91608079        5        6  5.830952选项 2：如果数据帧较大，则循环可能还不错：from scipy.spatial.distance import cdistret = []for i in set(df['rank']):    this_group = df['rank']==i    other_groups = df['rank'].between(i,i+n, inclusive=False)    t = df.loc[this_group,['x','y','z']].values    o = df.loc[other_groups,['x','y','z']].values    ret.append(cdist(t,o).ravel())dist = np.concatenate(ret)

应用于 Pandas DataFrame 的交错组

1回答