猿问

如何对python中数据框列中的唯一值执行函数

我有大约 500 万条记录的数据,如下图所示,我需要获取新数据框中每个 ID 的最大值和平均值,以便每个 ID 只有一个值

我对 python 和编程很陌生,这个小组很有帮助,但我似乎没有找到这个特定问题的相关答案。谢谢

慕勒3428872
浏览 117回答 1
1回答

largeQ

这应该这样做:import numpy as npimport pandas as pd# create dummy dataids = [1,1,1,1,2,2,2,2,2,3,3,3,3,4,4,4,4]values = [13,21,34,22,34,2,3,34,12,45,45,23,67,76,32,23,80]df = pd.DataFrame({'ID': ids, 'Values': values})df = df.groupby('ID').agg({'Values': [min, max, np.mean]})  # group by on ID and calculate new columns min, max, mean for the values columnsdf.columns = df.columns.droplevel(0)  # get rid of the multilevel columns due to the groupingdf.reset_index()编辑:感谢 ALollz 指出以下快捷方式(避免多级索引):df = df.groupby('ID')['Values'].agg([min, max, np.mean])  # group by on ID and calculate new columns min, max, mean for the values columnsdf.reset_index()让我知道是否有任何步骤需要详细说明。
随时随地看视频慕课网APP

相关分类

Python
我要回答