两天前的新问题。
当您拥有大量数据时,PANDAS 可以让您在生成统计数据的同时就地过滤内容,因此您不必为所有内容创建新的数据框。现在,我怀疑这样做有细微差别,因为以两种不同的方式做事 - 一种是“智能”方式,一种是“明确”方式,给了我非常不同的答案,一种显然是正确的(明确的),一个显然是错误的(聪明的方式)。
有人可以指出我所缺少的方向。
这是细节。
我有 250 万行数据,描述了一系列不同设备类型的故障时间。其中两个的描述性统计数据如下。(请注意,这些实际上是采矿设备,但我必须清理一些东西,所以我已经替换了名称)。
Count Min Mean Max
CC_CauseLocationEquipmentType
Coffee Machines 204136 0.000556 71.797146 23407.41667
Blenders 52424 0.008333 750.880591 23077.79167
如果我尝试获取设备故障时间的分位数,使用
print(df2.groupby("CC_CauseLocationEquipmentType").quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]))
然后我看到以下分位数。
沧海一幻觉
慕妹3242003
相关分类