我有一个数据集df,如下所示:
subject recipient length folder message date edit
80 out 1/2/2020 1:00:01 AM T
80 out 1/2/2020 1:00:05 AM T
hey sarah@mail.com,g@mail.com 80 out 1/2/2020 1:00:10 AM T
hey sarah@mail.com,g@mail.com 80 out 1/2/2020 1:00:15 AM T
hey sarah@mail.com,g@mail.com 80 out 1/2/2020 1:00:30 AM T
some k 900 in jjjjj 1/2/2020 1:00:35 AM F
some k 900 in jjjjj 1/2/2020 1:00:36 AM F
some k 900 in jjjjj 1/2/2020 1:00:37 AM F
hey sarah@mail.com,g@mail.com 80 draft 1/2/2020 1:02:00 AM T
hey sarah@mail.com,g@mail.com 80 draft 1/2/2020 1:02:05 AM T
no a 900 in iii 1/2/2020 1:02:10 AM F
no a 900 in iii 1/2/2020 1:02:15 AM F
no a 900 in iii 1/2/2020 1:02:20 AM F
no a 900 in iii 1/2/2020 1:02:25 AM F
数据集表示用户何时编辑消息、离开并继续执行该消息。我正在尝试捕获手头消息的总持续时间。我知道我必须首先对消息进行分组。我希望根据以下条件对消息进行分组:
如果“文件夹”列为 == “out” 或 “draft”,如果“消息”列为 == “”,并且 Edit == “T”,则“长度”列也应连续相同。因此,一旦我有了这些组,我希望找到这些组的持续时间(开始和结束)。例如,第一组持续时间为 29 秒,因为它从 1/2/2020 1:00:01 AM 开始,到 1/2/2020 1:00:30 AM 结束。第二组将于1/2/2020 1:02:00开始,并于凌晨1:02:05结束。最后,第三组从1/2/2020 1:03:00 AM开始,到1:03:20 AM结束。此外,由于这些组都属于同一邮件,因此我想使用以下逻辑将这些组完全链接在一起:组最后一行中的“主题”、“收件人”和“长度”内容与下一个组的第一行“主题”、“收件人”和“长度”匹配,则这些都属于同一组。
POPMUISE
相关分类