如果列值大于其他值,如何在Python中创建累积和列

我现在正在使用 pandas 获取累积总和列。但是,仅当其他列值大于其他列值时,该列才最多包含累积和。这是我当前数据的示例:


Index     A       B       C

0         1       20      3

1         10      15      11

2         20      12      25

3         30      18      32

4         40      32      17

5         50      12      4

然后,如果B列大于C ,我想要Acumsum()列,否则值为零。原始结果D列应如下所示:df


Index     A       B       C      D

0         1       20      3      1

1         10      15      11     11

2         20      12      25     0

3         30      18      32     0

4         40      32      17     40

5         50      12      4      90

我感谢您提前提供的任何支持。


紫衣仙女
浏览 86回答 3
3回答

慕容森

df = pd.DataFrame({'A': {0: 1, 1: 10, 2: 20, 3: 30, 4: 40, 5: 50},                   'B': {0: 20, 1: 15, 2: 12, 3: 18, 4: 32, 5: 12},                   'C': {0: 3, 1: 11, 2: 25, 3: 32, 4: 17, 5: 4}})为您的条件创建一个布尔系列并识别连续的 True 或 False 组b_gt_c = df.B > df.Cgroups = b_gt_c.ne(b_gt_c.shift()).cumsum()In [107]: b_gt_cOut[107]: 0     True1     True2    False3    False4     True5     Truedtype: boolIn [108]: groupsOut[108]: 0    11    12    23    24    35    3dtype: int32按这些组分组;将每组的总和乘以条件;将结果分配给新的 df 列。gb = df.groupby(groups)for k,g in gb:    df.loc[g.index,'D'] = g['A'].cumsum() * b_gt_c[g.index]In [109]: dfOut[109]:     A   B   C     D0   1  20   3   1.01  10  15  11  11.02  20  12  25   0.03  30  18  32   0.04  40  32  17  40.05  50  12   4  90.0您也可以跳过 for 循环:df['G'] = np.where(df.B.gt(df.C), df.A, np.NaN)group = df.B.gt(df.C).ne(df.B.gt(df.C).shift()).cumsum()df['G'] = df.groupby(group).G.cumsum().fillna(0)

慕桂英546537

可能有更优雅的解决方案,但这也有效。我们首先创建两个虚拟列 - x 和 x_shift。df.x 是有条件的,我们保留 df.A 的值,其中 df.B > df.C。df.x_shift 是我们将值移到下面一行并用 0 填充 na 的地方。在最后一步中,我们有条件地添加 df.A 和 df.x_shift,然后删除 df.x 和 df.x_shiftdf['x'] = pd.DataFrame(np.where(df.B>df.C, df.A ,0))df['x_shift'] = df.x.shift(1).fillna(0)df['D'] = pd.DataFrame(np.where(df.B >df.C, df.A+df.x_shift,0))df= df.drop(['x','x_shift'], axis=1

陪伴而非守候

虽然这有点野蛮,但您可以转换为 numpy 数组,然后编写一个简单的 catch 来遍历 3 个数组并比较值。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python