PDF绘图关注

我尝试了以下手动方法：

dict = {'id': ['a','b','c','d'], 'testers_time': [10, 30, 15, None], 'stage_1_to_2_time': [30, None, 30, None], 'activated_time' : [40, None, 45, None],'stage_2_to_3_time' : [30, None, None, None],'engaged_time' : [70, None, None, None]}

df = pd.DataFrame(dict, columns=['id', 'testers_time', 'stage_1_to_2_time', 'activated_time', 'stage_2_to_3_time', 'engaged_time'])

df= df.dropna(subset=['testers_time']).sort_values('testers_time')

prob = df['testers_time'].value_counts(normalize=True)

print(prob)

#0.333333, 0.333333, 0.333333

plt.plot(df['testers_time'], prob, marker='.', linestyle='-')

plt.show()

我尝试了以下在stackoverflow上发现的方法：

df = pd.DataFrame(dict, columns=['id', 'testers_time', 'stage_1_to_2_time', 'activated_time', 'stage_2_to_3_time', 'engaged_time'])

df= df.dropna(subset=['testers_time']).sort_values('testers_time')

fit = stats.norm.pdf(df['testers_time'], np.mean(df['testers_time']), np.std(df['testers_time']))

print(fit)

#0.02902547, 0.04346777, 0.01829513]

plt.plot(df['testers_time'], fit, marker='.', linestyle='-')

plt.hist(df['testers_time'], normed='true')

plt.show()

如您所见，我得到了完全不同的值-概率对于＃1正确，但对于＃2则不正确（也不累加到100％），直方图的y轴（％）基于6槽，不是3槽。

您能解释一下我如何获得＃2的正确概率吗？

qq_花开花谢_0

浏览 169回答 1

1回答

随时随地看视频慕课网APP