假设我们有一张客户及其支出表。
import pandas as pd
df = pd.DataFrame({
"Name": ["Alice", "Bob", "Bob", "Charles"],
"Spend": [3, 5, 7, 9]
})
LIMIT = 6
对于每个客户,我们可以使用以下apply方法计算他的支出中大于 6 的部分:
df.groupby("Name").apply(
lambda grp: len(grp[grp["Spend"] > LIMIT]) / len(grp)
)
Name
Alice 0.0
Bob 0.5
Charles 1.0
然而,该apply方法只是一个循环,如果有很多客户,它会很慢。
问题:有没有更快的方法,大概是使用矢量化?
从 0.23.4 版本开始, SeriesGroupBy 不支持比较运算符:
(df.groupby("Name") ["Spend"] > LIMIT).mean()
TypeError: '>' not supported between instances of 'SeriesGroupBy' and 'int'
下面的代码导致 Alice 的值为空:
df[df["Spend"] > LIMIT].groupby("Name").size() / df.groupby("Name").size()
Name
Alice NaN
Bob 0.5
Charles 1.0
下面的代码给出了正确的结果,但它要求我们要么修改表格,要么制作副本以避免修改原始表格。
df["Dummy"] = 1 * (df["Spend"] > LIMIT)
df.groupby("Name") ["Dummy"] .sum() / df.groupby("Name").size()
白衣非少年
相关分类