为什么在使用 DataFrameGroupBy.agg 时可以访问传递给聚合函数的系列

agg将整个 DataFrame 传递给func. 从文档中，func : 函数、字符串、字典或字符串/函数列表用于聚合数据的函数。如果是函数，则必须在传递 DataFrame 或传递给DataFrame.apply.我相信这意味着该函数实际上是由调度的apply，已知它对整个 DataFrame 进行操作。你可以print在里面通过一个简单的调用来公开它func：def func(df):    print(type(df))    return ''.join(df['col0'] + df['col1']) df.groupby('key').agg(func)<class 'pandas.core.series.Series'><class 'pandas.core.series.Series'><class 'pandas.core.series.Series'><class 'pandas.core.frame.DataFrame'><class 'pandas.core.frame.DataFrame'>Out[87]:      col0  col1key            1    ABCD  ABCD2    EFGH  EFGH所以它确实得到了两个 DataFrame 调用。但它也有 3 个带有 Series 参数的调用，我无法解释为什么会这样，也许是一个错误（我无法在任何地方看到它的记录）。好吧，仔细想想，这是我能想到的最好的办法。现在，agg不确定您的函数想要如何处理数据，因此它将尝试两种方法并使用首先作为系列工作的任何输出。这似乎是一个实现细节，但 Series 是第一个用于传入数据的方法。如果这不起作用，则回退是传递一个 DataFrame 并希望它成功。让我看看我是否可以让它在一个例子中工作......from itertools import countc = count(0)def func(x):    i = next(c)    print(i, type(x))    if i <3:        return 'xyz'    return ((df['col0'] + df['col1']).tolist())df.groupby('key').agg(func)0 <class 'pandas.core.series.Series'>1 <class 'pandas.core.series.Series'>2 <class 'pandas.core.series.Series'>3 <class 'pandas.core.series.Series'>Out[126]:     col0              col1key                       1    xyz               xyz2    xyz  [AB, CD, EF, GH]接下来，改变循环条件，我们有：def func(x):    i = next(c)    print(i, type(x))    if i in {0, 1}:        return 'xyz'    return ((x['col0'] + x['col1']).tolist())df.groupby('key').agg(func)0 <class 'pandas.core.series.Series'>1 <class 'pandas.core.series.Series'>2 <class 'pandas.core.series.Series'>3 <class 'pandas.core.series.Series'>4 <class 'pandas.core.series.Series'>5 <class 'pandas.core.frame.DataFrame'>6 <class 'pandas.core.frame.DataFrame'>Out[157]:     col0 col1key          1     AB   CD2     EF   GH并且，更改i in {0, 1}为i in {0, 4}，0 <class 'pandas.core.series.Series'>1 <class 'pandas.core.series.Series'>2 <class 'pandas.core.series.Series'>3 <class 'pandas.core.series.Series'>4 <class 'pandas.core.frame.DataFrame'>5 <class 'pandas.core.frame.DataFrame'>Out[158]:     col0 col1key          1    xyz  xyz2     EF   GH请注意函数类型的数量如何根据每次返回的内容而变化。

为什么在使用 DataFrameGroupBy.agg 时可以访问传递给聚合函数的系列

2回答