我在创建可以执行嵌套循环的递归函数时遇到问题。这是一个例子。假设我有一个数据框,如下所示:
col1 col2 col3 col4
A 1 Y 10
A 1 Y 19
A 1 N 20
A 2 Y 21
A 3 N 22
C 3 N 23
我想对 col1,col2,col3 进行分组,然后计算 col4 的总和。正常的代码块看起来像这样。
for code,val in df.groupby(by='col1'):
for codee,vall in val.groupby(by='col2'):
for codeee,valll in vall.groupby(by='col3):
answer=sum(valll['col4'])
但我想创建一个递归函数来完成这项任务。这是我到目前为止所得到的。
real=[]
def groupby_recurse(data, levels):
layer = len(levels)
if layer >= 1:
for code, val in data.groupby(by=levels[-layer]):
groupby_recurse(val, levels[(-layer + 1):])
else:
real.append(sum(data['col4']))
return real
df = pd.DataFrame([['A', 1, 'Y', 10], ['A', 1, 'Y', 19], ['A', 1, 'N', 20], ['A', 2, 'Y', 21],
['A', 2, 'Y', 22], ['C', 3, 'N', 23]], columns=['col1', 'col2', 'col3', 'col4'])
groupby_recurse(df, ['col1', 'col2', 'col3'])
这个函数有一个严重的问题。当layer=2,-layer+1=-1时,我位于groupby键列表的最后一个元素,但是进入下一轮,当layer=1且-layer+1=0时,它突然跳到第一个groupby 键列表的元素,并且它会永远持续下去。我该如何解决这个问题?
任何帮助深表感谢。干杯。
预期输出是包含所有总和值的列表。第一个值是 29。因为对所有三列进行分组后,df 看起来像这样
col1 col2 col3 col4
A 1 Y 10
A 1 Y 19
接下来是 20,因为分组后 df 看起来像这样。
col1 col2 col3 col4
A 1 N 20
然后就是21了。
col1 col2 col3 col4
A 2 Y 21
....最终结果将是[29,20,21,22,23]。希望这是有道理的。
九州编程
相关分类