我可以动态选择应用于 pandas Resampler 对象的方法吗？

首页课程实战体系课手记专栏慕课教程

我正在尝试创建一个对pandas. 我希望可以选择根据我发送的数据类型指定发生的聚合类型（即对于某些数据，取每个 bin 的总和是合适的，而对于其他数据，需要取平均值， ETC。）。例如像这样的数据：

import pandas as pd

import numpy as np

dr = pd.date_range('01-01-2020', '01-03-2020', freq='1H')

df = pd.DataFrame(np.random.rand(len(dr)), index=dr)

我可以有这样的功能：

def process(df, freq='3H', method='sum'):

r = df.resample(freq)

if method == 'sum':

r = r.sum()

elif method == 'mean':

r = r.mean()

#...

#more options

#...

return r

对于少量的聚合方法，这很好，但如果我想从所有可能的选项中进行选择，这似乎很乏味。

我希望用它getattr来实现类似这篇文章的东西（在“让它发挥作用：泛化方法调用”下）。但是，我找不到这样做的方法：

def process2(df, freq='3H', method='sum'):

r = df.resample(freq)

foo = getattr(r, method)

return r.foo()

#fails with:

#AttributeError: 'DatetimeIndexResampler' object has no attribute 'foo'

def process3(df, freq='3H', method='sum'):

r = df.resample(freq)

foo = getattr(r, method)

return foo(r)

#fails with:

#TypeError: __init__() missing 1 required positional argument: 'obj'

我明白为什么process2会失败（调用r.foo()查找方法foo()，r而不是变量foo）。但我不认为我明白为什么process3会失败。

我知道另一种方法是将函数传递给参数method，然后将apply这些函数传递给r. 我的倾向是这会降低效率吗？而且它仍然不允许我直接访问内置的 Resample 方法。

有没有一种更简洁的工作方式来实现这一目标？谢谢！

慕斯王

浏览 279回答 1

不负相思意

尝试.resample().apply(method)但是除非您计划在函数内部进行更多计算，否则硬编码这一行可能会更容易。

0 0

随时随地看视频慕课网APP