我有不同实体的数据记录,并且对于每个实体,在整个月的一天中的特定时间记录了一些计数。例如:
entity_id time counts
0 175 2019-03-01 05:00:00 3
1 175 2019-03-01 06:00:00 4
2 175 2019-03-01 07:00:00 6
3 175 2019-03-01 08:00:00 6
4 175 2019-03-01 09:00:00 7
5 178 2019-03-01 05:00:00 8
6 178 2019-03-01 06:00:00 4
7 178 2019-03-01 07:00:00 5
8 178 2019-03-01 08:00:00 6
9 200 2019-03-01 05:00:00 7
10 200 2019-03-01 08:00:00 3
11 175 2019-03-03 05:00:00 3
12 175 2019-03-03 07:00:00 6
13 175 2019-03-03 08:00:00 6
14 175 2019-03-03 09:00:00 7
15 178 2019-03-03 05:00:00 8
16 178 2019-03-03 06:00:00 4
17 178 2019-03-03 07:00:00 5
18 178 2019-03-03 08:00:00 6
19 200 2019-03-03 05:00:00 7
20 200 2019-03-03 08:00:00 3
21 200 2019-03-03 09:00:00 7
...
我希望能够为每个实体汇总整个月中一周中不同日期的几个小时范围内的计数平均值。例如:
周日早上(早上 6 点到 10 点)的平均值
周日至周四早上(早上 6 点至上午 10 点)的平均值
周日至周四中午(上午 11 点至下午 1 点)的平均值
周五至周六中午(上午 11 点至下午 1 点)的平均值
周五晚上 (6PM-9PM) 的平均值
等等
所以我希望得到这样的 df(部分示例):
entity_id day_in_week time_in_day counts_mean
0 175 sun eve 5
1 175 sun-thu noon 6
2 178 sun eve 5
3 178 sat eve 5
4 200 sun-thu morning 2
...
我设法通过遍历数据、切片和提取不同的元素来部分完成这项工作,但我认为有一种更有效的方法。
我从这个问题开始,但我仍然有太多 for 循环。任何想法如何优化性能?
德玛西亚99
蝴蝶刀刀
紫衣仙女
随时随地看视频慕课网APP
相关分类