Pandas 如何避免在 groupby nlargest n 中申请

当我们有 NaN 时import numpy as npimport pandas as pddf = pd.DataFrame({'item': list('abcdefghijk'),                   'year': [1990,1990,1990,1992,1992,1992,1992,1993,1993,1993,1993],                   'value':[10 , 11  ,12  ,20  ,21  ,22  ,23  ,30  ,31  ,32  ,np.nan]})print(df)   item  year  value0     a  1990   10.01     b  1990   11.02     c  1990   12.03     d  1992   20.04     e  1992   21.05     f  1992   22.06     g  1992   23.07     h  1993   30.08     i  1993   31.09     j  1993   32.010    k  1993    NaN使用应用（慢）top2 = df.groupby('year')['value'].apply(lambda x: x.nlargest(2)).reset_index(level=0)print(df.loc[top2.index])# time: 2.96ms  item  year  value2    c  1990   12.01    b  1990   11.06    g  1992   23.05    f  1992   22.09    j  1993   32.08    i  1993   31.0不使用应用（更快）print(df.dropna(subset=['value']).sort_values('value').groupby('year').tail(2))# time: 2.01ms  item  year  value1    b  1990   11.02    c  1990   12.05    f  1992   22.06    g  1992   23.08    i  1993   31.09    j  1993   32.0

Pandas 如何避免在 groupby nlargest n 中申请

2回答