将列折叠/连接/聚合到每个组中的单个逗号分隔字符串

3回答

隔江千里

这里有一些选项使用toString，一个很好的实用程序函数，用逗号连接字符串。如果你不希望逗号，你可以使用paste()与collapse参数来代替。data.table# alternative using data.tablelibrary(data.table)as.data.table(data)[, toString(C), by = list(A, B)]aggregate这不使用包：# alternative using aggregate from the stats package in the core of Raggregate(C ~., data, toString)sqldf以下是group_concat使用sqldf包使用SQL函数的替代方法：library(sqldf)sqldf("select A, B, group_concat(C) C from data group by A, B", method = "raw")dplyr甲dplyr替代：library(dplyr)data %>%   group_by(A, B) %>%   summarise(test = toString(C)) %>%   ungroup()plyr# plyrlibrary(plyr)ddply(data, .(A,B), summarize, C = toString(C))

0 0

Helenr

改变放置位置as.character：> out <- ddply(data, .(A, B), summarise, test = list(as.character(C)))> str(out)'data.frame':   4 obs. of  3 variables: $ A   : num  111 111 222 222 $ B   : int  1 2 1 2 $ test:List of 4  ..$ : chr  "5" "7"  ..$ : chr "6"  ..$ : chr "9"  ..$ : chr  "8" "10"> out    A B  test1 111 1  5, 72 111 2     63 222 1     94 222 2 8, 10但请注意，每个项目实际上仍然是一个单独的字符，而不是单个字符串。也就是说，这不是一个看起来像“5,7”的实际字符串，而是两个字符“5”和“7”，R在它们之间用逗号显示。与以下内容比较：> out2 <- ddply(data, .(A, B), summarise, test = paste(C, collapse = ", "))> str(out2)'data.frame':   4 obs. of  3 variables: $ A   : num  111 111 222 222 $ B   : int  1 2 1 2 $ test: chr  "5, 7" "6" "9" "8, 10"> out    A B  test1 111 1  5, 72 111 2     63 222 1     94 222 2 8, 10基础R中的可比解决方案当然是aggregate：> A1 <- aggregate(C ~ A + B, data, function(x) c(as.character(x)))> str(A1)'data.frame':   4 obs. of  3 variables: $ A: num  111 222 111 222 $ B: int  1 1 2 2 $ C:List of 4  ..$ 0: chr  "5" "7"  ..$ 1: chr "9"  ..$ 2: chr "6"  ..$ 3: chr  "8" "10"> A2 <- aggregate(C ~ A + B, data, paste, collapse = ", ")> str(A2)'data.frame':   4 obs. of  3 variables: $ A: num  111 222 111 222 $ B: int  1 1 2 2 $ C: chr  "5, 7" "9" "6" "8, 10"

0 0

森林海

这是stringr/ tidyverse解决方案：library(tidyverse)library(stringr)data <- data.frame(A = c(rep(111, 3), rep(222, 3)), B = rep(1:2, 3), C = c(5:10))data %>% group_by(A, B) %>% summarize(text = str_c(C, collapse = ", "))# A tibble: 4 x 3# Groups:   A [2]      A     B test   <dbl> <int> <chr>1   111     1 5, 7 2   111     2 6    3   222     1 9    4   222     2 8, 10

0 0