熊猫：参差不齐的时间序列的时间加权滚动平均值

启发的两种可能的解决方案：def time_weighted_average_using_local_upsampling(df: pd.DataFrame, avg_window: str) -> pd.DataFrame:    """Uses second resolution up-sampling only on smaller windows at a time."""    original_index = df.index.copy()    avg = (        df.reindex(df.index.union(df.index.shift(periods=-1, freq=avg_window)), method="ffill")        .rolling(avg_window, closed="both", min_periods=2)        .apply(lambda x: x.resample("1s").ffill()[:-1].mean(skipna=False))        .reindex(original_index)    )    return avgdef time_weighted_average_using_index_weighting(df: pd.DataFrame, avg_window: str) -> pd.DataFrame:    """Uses weighting by duration, by ensuring every window has a point at the start."""    original_index = df.index.copy()    avg = (        df.reindex(df.index.union(df.index.shift(periods=-1, freq=avg_window)), method="ffill")        .rolling(avg_window, closed="both", min_periods=2)        .apply(lambda x: np.average(x[:-1], weights=x.index.to_series().diff()[1:].dt.seconds))        .reindex(original_index)    )    return avg第一个一次对单个滚动窗口进行上采样，而后者实际上通过确保在我们关心的窗口开始处始终有一个可用点来进行参差不齐的时间加权平均。这是通过包括按窗口长度移动的原始索引来完成的。我还没有衡量相关案例的表现。编辑：我决定在大约 100,000 行的第二个分辨率数据集上测试函数，并使用 20 分钟的窗口（！）两种变体都慢得令人难以忍受，但我认为我有一个新的赢家：def time_weighted_average_using_index_weighting2(df: pd.DataFrame, avg_window: str) -> pd.DataFrame:    """Uses weighting by duration, by ensuring every window has a point at the start."""    original_index = df.index.copy()    avg = df.reindex(df.index.union(df.index.shift(periods=-1, freq=avg_window)), method="ffill")    avg = (        avg.multiply(avg.index.to_series().diff().dt.seconds.shift(-1), axis=0)        .divide(pd.Timedelta(avg_window).seconds)        .rolling(avg_window, closed="left")        .sum()        .reindex(original_index)    )    avg[~((avg.index - pd.Timedelta(avg_window)) >= original_index[0])] = np.nan    return avg这个在滚动之前预先加权，因此我们不用使用.sum()而不是apply(). 这转化为巨大的速度提升。无论平均窗口的大小如何，我们最多也可以将索引加倍。

熊猫：参差不齐的时间序列的时间加权滚动平均值

2回答