多索引 df 的箱线图

我想做两件事:

  1. 我想为每个日期/天创建一个箱线图,其中包含该日期中 MeanTravelTimeSeconds 的所有值。MeanTravelTimeSeconds 元素的数量随日期而变化(例如,某一天可能有 300 个值,而另一天可能有 400 个)。

  2. 另外,我想将多索引系列中的行转换为列,因为我不希望每次都重复行。如果它保持这样,我就会有数千万不必要的行。

这是在按日期索引的 df 上使用 df.stack() 后的结果系列(日期是日期时间对象索引):

Date                                        

2016-01-02  NumericIndex                        1611664

            OriginMovementID                       4744

            DestinationMovementID                  5084

            MeanTravelTimeSeconds                  1233

            RangeLowerBoundTravelTimeSeconds        756

                                                 ...   

2020-03-31  DestinationMovementID                  3594

            MeanTravelTimeSeconds                  1778

            RangeLowerBoundTravelTimeSeconds       1601

            RangeUpperBoundTravelTimeSeconds       1973

            DayOfWeek                           Tuesday

Length: 11281655, dtype: object

当我使用seaborn绘制箱线图时,在使用不同的选择后,我遇到了很多错误。


如果我尝试这样做df.stack().unstack()或df.stack().T收到以下错误:


Index contains duplicate entries, cannot reshape

如何绘制箱线图以及如何将行转换为列?


繁星淼淼
浏览 148回答 1
1回答

撒科打诨

您确实需要使您的索引独一无二,以使您想要的功能发挥作用。我建议在其他两个关键列中每次更改时都会重置一个序列号。import datetime as dtimport randomimport numpy as npcat = ["NumericIndex","OriginMovementID","DestinationMovementID","MeanTravelTimeSeconds", "RangeLowerBoundTravelTimeSeconds"]df = pd.DataFrame([{"Date":d, "Observation":cat[random.randint(0,len(cat)-1)],   "Value":random.randint(1000,10000)}  for i in range(random.randint(5,20))  for d in pd.date_range(dt.datetime(2016,1,2), dt.datetime(2016,3,31), freq="14D")])# starting point....df = df.sort_values(["Date","Observation"]).set_index(["Date","Observation"])# generate an array that is sequential within change of keyseq = np.full(df.index.shape, 0)s=0p=""for i, v in enumerate(df.index):    if i==0 or p!=v: s=0    else: s+=1    seq[i] = s    p=vdf["SeqNo"] = seq# add to index - now unstack works as requireddfdd = df.set_index(["SeqNo"], append=True)dfdd.unstack(0).loc["MeanTravelTimeSeconds"].boxplot()print(dfdd.unstack(1).head().to_string())输出                                  Value                                                                                     Observation      DestinationMovementID MeanTravelTimeSeconds NumericIndex OriginMovementID RangeLowerBoundTravelTimeSecondsDate       SeqNo                                                                                                           2016-01-02 0                       NaN                   NaN       2560.0           5324.0                           5085.0           1                       NaN                   NaN       1066.0           7372.0                              NaN2016-01-16 0                       NaN                6226.0          NaN           7832.0                              NaN           1                       NaN                1384.0          NaN           8839.0                              NaN           2                       NaN                7892.0          NaN              NaN                              NaN
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python