使 DataFrame 相对于特定列平衡

使用groupby和head：df = df.groupby('Label').head(50)这将从 Label 分别为 0 和 1 的每个行子集中取前 50 个。在标签为 1 的行的情况下，前 50 个被选中，其余的被丢弃。要选择最后 50 个，请替换head(50)为tail(50)。要随机选择 50 行，请使用apply+ sample：df = (df.groupby('Label', as_index=False)        .apply(lambda x: x.sample(n=50))        .reset_index(drop=True))请注意，如果任何组的项目少于 N (=50) 个，这将不起作用。

使 DataFrame 相对于特定列平衡

2回答