熊猫将值与具有过滤条件的前一行进行比较

首页课程实战体系课手记专栏慕课教程

熊猫将值与具有过滤条件的前一行进行比较

我有一个包含员工工资信息的 DataFrame。它大约有 900000+ 行。

样本：

+----+-------------+---------------+----------+

| | table_num | name | salary |

|----+-------------+---------------+----------|

| 0 | 001234 | John Johnson | 1200 |

| 1 | 001234 | John Johnson | 1000 |

| 2 | 001235 | John Johnson | 1000 |

| 3 | 001235 | John Johnson | 1200 |

| 4 | 001235 | John Johnson | 1000 |

| 5 | 001235 | Steve Stevens | 1000 |

| 6 | 001236 | Steve Stevens | 1200 |

| 7 | 001236 | Steve Stevens | 1200 |

| 8 | 001236 | Steve Stevens | 1200 |

+----+-------------+---------------+----------+

数据类型：

table_num: string

name: string

salary: float

我需要添加一列有关增加\减少工资水平的信息。我正在使用该shift()函数来比较行中的值。

主要问题在于对整个数据集的所有唯一员工进行过滤和迭代。

在我的脚本中大约需要 3 个半小时。

怎么做比较快？

蝴蝶不菲

浏览 175回答 3

3回答

弑天下

使用groupby连同diff：df['inc'] = df.groupby(['table_num', 'name'])['salary'].diff().fillna(0.0) df.loc[df['inc'] > 0.0, 'inc'] = 1.0 df.loc[df['inc'] < 0.0, 'inc'] = -1.0

0 0

喵喔喔

使用DataFrameGroupBy.diffwithnumpy.sign和 last cast to integers：df['new'] = np.sign(df.groupby(['table_num', 'name'])['salary'].diff().fillna(0)).astype(int)print (df)   table_num           name  salary  new0       1234   John Johnson    1200    01       1234   John Johnson    1000   -12       1235   John Johnson    1000    03       1235   John Johnson    1200    14       1235   John Johnson    1000   -15       1235  Steve Stevens    1000    06       1236  Steve Stevens    1200    07       1236  Steve Stevens    1200    08       1236  Steve Stevens    1200    0

0 0

随时随地看视频慕课网APP

相关分类

Python