GroupBy和Pandas中的聚合函数

我有一个如下的时间序列数据集。我想将其拆分为多个20个bin,获取每个bin中的最小和最大时间戳,并根据是否至少有1个成功结果向每个bin添加一个标志(成功:result = 0;失败:result = 1)


data = [{"product": "abc", "test_tstamp": 1530693399, "result": 1},

    {"product": "abc", "test_tstamp": 1530693405, "result": 0},

    {"product": "abc", "test_tstamp": 1530693410, "result": 1},

    {"product": "abc", "test_tstamp": 1530693411, "result": 0},

    {"product": "abc", "test_tstamp": 1530693415, "result": 0},

    {"product": "abc", "test_tstamp": 1530693420, "result": 0},

    {"product": "abc", "test_tstamp": 1530693430, "result": 0},

    {"product": "abc", "test_tstamp": 1530693431, "result": 0}]

我可以使用pandas.cut()将数据切割为20秒的间隔,并获取每个bin的最小和最大时间戳


import numpy as np

import pandas as pd

arange = np.arange(1530693398, 1530693440, 20)

data = [{"product": "abc", "test_tstamp": 1530693399, "result": 1},

    {"product": "abc", "test_tstamp": 1530693405, "result": 0},

    {"product": "abc", "test_tstamp": 1530693410, "result": 1},

    {"product": "abc", "test_tstamp": 1530693411, "result": 0},

    {"product": "abc", "test_tstamp": 1530693415, "result": 0},

    {"product": "abc", "test_tstamp": 1530693420, "result": 1},

    {"product": "abc", "test_tstamp": 1530693430, "result": 1},

    {"product": "abc", "test_tstamp": 1530693431, "result": 1}]

df = pd.DataFrame(data)

df['bins'] = pd.cut(df['test_tstamp'], arange)

output_1 = df.groupby(["bins"]).agg({'result': np.ma.count, 'test_tstamp': {'mindate': np.min, 'maxdate': np.max}})


                         test_tstamp               result

                         maxdate     mindate       count

bins                                                   

(1530693398, 1530693418]  1530693415  1530693399      5

(1530693418, 1530693438]  1530693431  1530693420      3

并能够找到result success和result failed使用groupby()

我不确定如何组合output_1,output_2因此result count我想使用而不是上面的列result success,result failed并将flag列与each关联bin。

任何指针都会有所帮助!谢谢!


炎炎设计
浏览 229回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python