如何根据某些条件将行组合在一起？（R 或 Python）

您的外观与您发布的数据框略有不同：structure> df   Subject                   Recipient Length Folder Message                Date Edit1                                          80    out      NA 1/2/2020 1:00:01 AM TRUE2                                          80    out      NA 1/2/2020 1:00:05 AM TRUE3      hey sarah@mail.com,gee@mail.com     80    out      NA 1/2/2020 1:00:10 AM TRUE4      hey sarah@mail.com,gee@mail.com     80    out      NA 1/2/2020 1:00:15 AM TRUE5      hey sarah@mail.com,gee@mail.com     80    out      NA 1/2/2020 1:00:30 AM TRUE6                                          NA             NA                       NA7                                          NA             NA                       NA8      hey sarah@mail.com,gee@mail.com     80  draft      NA 1/2/2020 1:02:00 AM TRUE9      hey sarah@mail.com,gee@mail.com     80  draft      NA 1/2/2020 1:02:05 AM TRUE10                                         NA             NA                       NA11                                         NA             NA                       NA12     hey sarah@mail.com,gee@mail.com    100  draft      NA 1/2/2020 1:03:00 AM TRUE13     hey sarah@mail.com,gee@mail.com    100  draft      NA 1/2/2020 1:03:20 AM TRUE此外，您所需的输出表明您希望按其他类别拆分组，但这不是您的描述所说的，因此我没有按分组。不过，如果您愿意，这很容易改变。FolderFolder您可以使用运行长度编码来消除排序数据中相同连续值的组的歧义，但在 R 中，转换为数据框列有点棘手。我用这个答案来实现这一点。rlelibrary(lubridate)library(dplyr)df %>%  mutate(Date = mdy_hms(Date),         Key = paste(Subject, Recipient, Length, sep = "_")) %>%  arrange(Date) %>%  filter(Folder == "out" | Folder == "draft" & Edit == TRUE) %>%  mutate(RLE = {RLE = rle(Key) ; rep(seq_along(RLE$lengths), RLE$lengths)}) %>%  group_by(RLE) %>%  summarize(Start = first(Date),            End = last(Date),            Duration = as.numeric(End) - as.numeric(Start))这将从第 1：2 行、3：5+8：9 和 12：13 行创建组。这些组给出以下持续时间：# A tibble: 3 x 4    RLE Start               End                 Duration  <int> <dttm>              <dttm>                 <dbl>1     1 2020-01-02 01:00:01 2020-01-02 01:00:05        42     2 2020-01-02 01:00:10 2020-01-02 01:02:05      1153     3 2020-01-02 01:03:00 2020-01-02 01:03:20       20如果要包含在分组中，请将其添加到创建中包含的内容中。这使得小组1：2，3：5，8：9和12：13。这样做会得到这样的结果：FolderKey# A tibble: 4 x 4    RLE Start               End                 Duration  <int> <dttm>              <dttm>                 <dbl>1     1 2020-01-02 01:00:01 2020-01-02 01:00:05        42     2 2020-01-02 01:00:10 2020-01-02 01:00:30       203     3 2020-01-02 01:02:00 2020-01-02 01:02:05        54     4 2020-01-02 01:03:00 2020-01-02 01:03:20       20

如何根据某些条件将行组合在一起？（R 或 Python）

1回答