使用pandas GroupBy.agg（）对同一列进行多次聚合

大熊猫> = 0.25：命名汇总熊猫已经改变了行为，GroupBy.agg转而使用更直观的语法来指定命名聚合。请参阅0.25文档部分中的增强功能以及相关的GitHub问题GH18366和GH26512。从文档中为了通过控制输出列名来支持特定于列的聚合，pandas接受特殊的语法GroupBy.agg()，称为“命名聚合”，其中关键字是输出列名称值是元组，其第一个元素是要选择的列，第二个元素是要应用于该列的聚合。Pandas为pandas.NamedAgg namedtuple提供了字段['column'，'aggfunc']，以使参数更清晰。通常，聚合可以是可调用的或字符串别名。您现在可以通过关键字参数传递一个元组。元组遵循的格式(<colName>, <aggFunc>)。import pandas as pdpd.__version__                                                                                                                            # '0.25.0.dev0+840.g989f912ee'# Setupdf = pd.DataFrame({'kind': ['cat', 'dog', 'cat', 'dog'],                   'height': [9.1, 6.0, 9.5, 34.0],                   'weight': [7.9, 7.5, 9.9, 198.0]})df.groupby('kind').agg(    max_height=('height', 'max'), min_weight=('weight', 'min'),)      max_height  min_weightkind                        cat          9.5         7.9dog         34.0         7.5另外，您可以使用pd.NamedAgg（本质上是namedtuple）使事情更明确。df.groupby('kind').agg(    max_height=pd.NamedAgg(column='height', aggfunc='max'),     min_weight=pd.NamedAgg(column='weight', aggfunc='min'))      max_height  min_weightkind                        cat          9.5         7.9dog         34.0         7.5对于Series来说甚至更简单，只需将aggfunc传递给关键字arguments.t即可。df.groupby('kind')['height'].agg(max_height='max', min_height='min')          max_height  min_heightkind                        cat          9.5         9.1dog         34.0         6.0       最后，如果您的列名不是有效的python标识符，请使用带有解包功能的字典：df.groupby('kind')['height'].agg(**{'max height': 'max', ...})熊猫<0.25在最新版本的熊猫（最高可达0.24）中，如果使用字典为聚合输出指定列名，则会得到FutureWarning：df.groupby('dummy').agg({'returns': {'Mean': 'mean', 'Sum': 'sum'}})# FutureWarning: using a dict with renaming is deprecated and will be removed # in a future versionv0.20中不建议使用字典重命名列。在较新版本的熊猫上，可以通过传递元组列表来更简单地指定它。如果以这种方式指定函数，则该列的所有函数都必须指定为（名称，函数）对的元组。df.groupby("dummy").agg({'returns': [('op1', 'sum'), ('op2', 'mean')]})        returns                      op1       op2dummy                    1      0.328953  0.032895要么，df.groupby("dummy")['returns'].agg([('op1', 'sum'), ('op2', 'mean')])            op1       op2dummy                    1      0.328953  0.032895

使用pandas GroupBy.agg（）对同一列进行多次聚合

3回答