pandas groupby 对象,组合和绘图

我可能不太了解何时或如何使用 pandas.DataFrame 的 groupby 函数。在下面的示例中,我想按花瓣长度对我的数据框进行分箱,并计算条目数、每个分箱的平均值和分布。我可以通过三个 groupby 调用来做到这一点,但随后我在三个单独的对象中得到了答案。因此,我之后将它们连接起来。现在我有一个对象,但所有列都称为萼片宽度,将名称传递给 concat 对我不起作用。我也想得到 bin 和平均值,例如用于绘图,但我不知道该怎么做。


import matplotlib.pyplot as plt

import pandas as pd

from sklearn import datasets


iris = datasets.load_iris()

data = pd.DataFrame(iris.data)

data.columns = iris.feature_names

data["bin"] = pd.cut(data["petal length (cm)"], 5)


g0 = data.groupby(["bin"])["sepal width (cm)"].count()

g1 = data.groupby(["bin"])["sepal width (cm)"].mean()

g2 = data.groupby(["bin"])["sepal width (cm)"].std()


# how to get better names?

g = pd.concat([g0, g1, g2], axis=1)

print g


# how to extract bin and mean e.g. for plotting?

#plt.plot(g.bin, g.mean)


长风秋雁
浏览 135回答 1
1回答

拉风的咖菲猫

关于问题的第二部分,您可以使用字符串操作。如果我理解正确,你可以使用这个:a = data['bin']a1 = a.astype(str).str.strip('([])').str.split(',').str[0].astype(float) a2 = a.astype(str).str.strip('([])').str.split(',').str[1].astype(float)data['bin_center'] = (a1+a2)/2g = data.groupby('bin_center')['sepal width (cm)'].agg(['count', 'mean', 'std'])plt.plot(g.index, g['mean'])顺便说一句,如果你不想要 bin 中心,并且你想查看带有 bins 的图,你可以使用 dataframe plot:g = data.groupby('bin')['sepal width (cm)'].agg(['count', 'mean', 'std']) print(g) g['mean'].plot()
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python