pandas groupby shift 不尊重群体

我有以下 DataFrame 和一个任意函数


df = pd.DataFrame(

    {'grp': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3],

     'val': [0.80485036, 0.30698609, 0.33518013, 0.12214516, 0.66355629,

       0.71277808, 0.07193942, 0.97128731, 0.46351423, 0.81494857,

       0.82267912, 0.33043168, 0.55643, 0.63413976, 0.37998928, 0.54695376,

       0.99751999, 0.02726808, 0.2392102 , 0.93278521, 0.41905688]}

)


def myfunc(arr):

    return np.product(1+arr) - 1

我计算myfunc组内滚动:


df.groupby('grp')['val'].rolling(3).apply(myfunc)


grp    

1    0          NaN

     1          NaN

     2     2.149576

     3     0.958213

     4     1.492450

     5     2.197331

     6     2.054280

     7     2.619272

     8     2.092553

     9     4.236139

     10    3.841406

2    11         NaN

3    12         NaN

     13         NaN

     14    2.509898

     15    2.488528

     16    3.264265

     17    2.174331

     18    1.542845

     19    1.460438

     20    2.398822

这一切都很好。现在我需要将组内的滚动计算向后移动五个周期。


df.groupby('grp')['val'].rolling(3).apply(myfunc).shift(-5)


grp    

1    0     2.197331

     1     2.054280

     2     2.619272

     3     2.092553

     4     4.236139

     5     3.841406

     6          NaN

     7          NaN

     8          NaN

     9     2.509898

     10    2.488528

2    11    3.264265

3    12    2.174331

     13    1.542845

     14    1.460438

     15    2.398822

     16         NaN

     17         NaN

     18         NaN

     19         NaN

     20         NaN

Name: val, dtype: float64

这里发生了什么?!groupby 的全部目的是保持组之间的界限。大熊猫如何(以及为什么)不尊重这一点。它应该是:


grp    

1    0     2.197331

     1     2.054280

     2     2.619272

     3     2.092553

     4     4.236139

     5     3.841406

     6          NaN

     7          NaN

     8          NaN

     9          NaN

     10         NaN

2    11         NaN

3    12    2.174331

     13    1.542845

     14    1.460438

     15    2.398822

     16         NaN

     17         NaN

     18         NaN

     19         NaN

     20         NaN

Name: val, dtype: float64

这似乎是熊猫中的一个严重错误。我错过了什么吗?我怎样才能让groupby做一个groupby?


MMMHUHU
浏览 80回答 1
1回答

翻阅古今

问题是,当分成几块时,代码df.groupby('grp')['val'].rolling(3).apply(myfunc).shift(-5)相当于tmp = df.groupby('grp')['val'].rolling(3).apply(myfunc)out = tmp.shift(-5)在这里,tmp是一个正常的pd.Series. 正如您现在可以猜测的那样,out在正常系列上移动,没有任何分组。这是预期的行为。要获得所需的输出,您可以与另一个 groupby 链接:(df.groupby('grp')['val'].rolling(3).apply(myfunc)   .groupby('grp').shift(-5)        # extra groupby here )一切都应该很好。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python