如何使用 pandas groupby 计算完成每个唯一 id 的行选择标准？

numba根据测试结果，不太可能实现几个数量级的改进（不使用像甚至 Cython 这样的底层工具）。这可以从执行聚合计算所需的时间看出。然而，仍然可以进行两个关键优化：减少显式数据传递的数量 - 主要是df[df['col'] = val]过滤。在我的实现中，您的 for 循环被替换为（1）使用一次聚合所有内容.groupby().agg()，（2）使用查找表（dict）检查阈值。我不确定是否存在更有效的方法，但它总是涉及一次数据传递，并且最多只能再节省几秒钟。访问df["col"].values而不是df["col"]尽可能。（注意，这不会复制数据，因为可以在tracemalloc模块打开的情况下轻松验证。）基准代码：使用您的示例生成了 15M 条记录。import pandas as pdimport numpy as npfrom datetime import datetime# check memory footprint# import tracemalloc# tracemalloc.start()# datadf = pd.read_csv("/mnt/ramdisk/in.csv", index_col="idx")del df['measurement_tstamp']df.reset_index(drop=True, inplace=True)df["travel_time_minutes"] = df["travel_time_minutes"].astype(np.float64)# repeatcols = df.columnsdf = pd.DataFrame(np.repeat(df.values, 500000, axis=0))df.columns = cols# Aggregation startst0 = datetime.now()print(f"Program begins....")# 1. aggregate everything at oncedf_agg = df.groupby("tmc_code").agg(    mode=("travel_time_minutes", pd.Series.mode),    q95=("travel_time_minutes", lambda x: np.quantile(x, .95)))t1 = datetime.now()print(f"  Aggregation: {(t1 - t0).total_seconds():.2f}s")# 2. construct a lookup table for the thresholdsthreshold = {}for tmc_code, row in df_agg.iterrows():  # slow but only 1.2k rows    threshold[tmc_code] = np.max(row["mode"]) + row["q95"]t2 = datetime.now()  # doesn't matterprint(f"  Computing Threshold: {(t2 - t1).total_seconds():.2f}s")# 3. filteringdef f(tmc_code, travel_time_minutes):    return travel_time_minutes <= threshold[tmc_code]df = df[list(map(f, df["tmc_code"].values, df["travel_time_minutes"].values))]t3 = datetime.now()print(f"  Filter: {(t3 - t2).total_seconds():.2f}s...")print(f"Program ends in {(datetime.now() - t0).total_seconds():.2f}s")# memory footprint# current, peak = tracemalloc.get_traced_memory()# print(f"Current memory usage is {current / 10**6}MB; Peak was {peak / 10**6}MB")# tracemalloc.stop()print()结果：（3 次运行）| No. | old   | new   | new(aggr) | new(filter) ||-----|-------|-------|-----------|-------------|| 1   | 24.55 | 14.04 | 9.87      | 4.16        || 2   | 23.84 | 13.58 | 9.66      | 3.92        || 3   | 24.81 | 14.37 | 10.02     | 4.34        || avg | 24.40 | 14.00 |           |             |=> ~74% faster使用 python 3.7 和 pandas 1.1.2 进行测试

如何使用 pandas groupby 计算完成每个唯一 id 的行选择标准？

1回答