Python：计算一段时间内 Pandas 数据框中的累积量

这里非常复杂的部分是填写日期。我使用了申请，但我不确定这是最好的方法import pandas as pddata = [{"game_id":"Racing","user_id":"ABC123","amt":5,"date":"2020-01-01"},        {"game_id":"Racing","user_id":"ABC123","amt":1,"date":"2020-01-04"},        {"game_id":"Racing","user_id":"CDE123","amt":1,"date":"2020-01-04"},        {"game_id":"DH","user_id":"CDE123","amt":100,"date":"2020-01-03"},        {"game_id":"DH","user_id":"CDE456","amt":10,"date":"2020-01-02"},        {"game_id":"DH","user_id":"CDE789","amt":5,"date":"2020-01-02"},        {"game_id":"DH","user_id":"CDE456","amt":1,"date":"2020-01-03"},        {"game_id":"DH","user_id":"CDE456","amt":1,"date":"2020-01-03"}]df = pd.DataFrame(data)# we want datetime not objectdf["date"] = df["date"].astype("M8[us]")# we will need to merge this at the endgrp = df.groupby("game_id")['user_id']\        .nunique()\        .reset_index(name="Total_unique_payers_per_game")# sum amt per game_id datedf = df.groupby(["game_id", "date"])["amt"].sum().reset_index()# dates from 2020-01-01 till the max date in dfdates = pd.DataFrame({"date": pd.date_range("2020-01-01", df["date"].max())})# add missing datesdef expand_dates(x):    x = pd.merge(dates, x.drop("game_id", axis=1), how="left")    x["amt"] = x["amt"].fillna(0)    return xdf = df.groupby("game_id")\       .apply(expand_dates)\       .reset_index().drop("level_1", axis=1)df["Cum_rev"] = df.groupby("game_id")['amt'].transform("cumsum")# this is equivalent as long as data is sorted# df["Cum_rev"] = df.groupby("game_id")['amt'].cumsum()# merge unique payers per gamedf = pd.merge(df, grp, how="left")# dates differencedf["Age"] = "2020-01-01"df["Age"] = df["Age"].astype("M8[us]")df["Age"] = (df["date"]-df["Age"]).dt.days# then you can eventually filterdf = df[["game_id", "Age",          "Cum_rev", "Total_unique_payers_per_game"]]\       .rename(columns={"game_id":"Game"})

Python：计算一段时间内 Pandas 数据框中的累积量

1回答