列を各グループ内の単一のコンマ区切り文字列に縮小/連結/集約します

Question

2つのグループ化変数に従ってデータフレーム内の1つの列を集計し、個々の値をコンマで区切ります。

ここにいくつかのデータがあります：

data <- data.frame(A = c(rep(111, 3), rep(222, 3)), B = rep(1:2, 3), C = c(5:10)) data # A B C # 1 111 1 5 # 2 111 2 6 # 3 111 1 7 # 4 222 2 8 # 5 222 1 9 # 6 222 2 10

「A」と「B」はグループ化変数で、「C」はコンマで区切られたcharacter文字列にまとめたい変数です。私が試してみました：

library(plyr) ddply(data, .(A,B), summarise, test = list(C)) A B test 1 111 1 5, 7 2 111 2 6 3 222 1 9 4 222 2 8, 10

しかし、テスト列をcharacterに変換しようとすると、次のようになります。

ddply(data, .(A,B), summarise, test = as.character(list(C))) # A B test # 1 111 1 c(5, 7) # 2 111 2 6 # 3 222 1 9 # 4 222 2 c(8, 10)

character形式を保持し、コンマで区切るにはどうすればよいですか？たとえば、行1は"5,7"のみであり、c（5,7）としてはなりません。

G. Grothendieck · Accepted Answer

以下は、文字列をコンマで連結するNiceユーティリティ関数であるtoStringを使用したオプションです。コンマが必要ない場合は、代わりにcollapse引数とともにpaste()を使用できます。

data.table

# alternative using data.table library(data.table) as.data.table(data)[, toString(C), by = list(A, B)]

aggregateこれはパッケージを使用しません：

# alternative using aggregate from the stats package in the core of R aggregate(C ~., data, toString)

sqldf

そして、これはSQL関数group_concat sqldfパッケージを使用：

library(sqldf) sqldf("select A, B, group_concat(C) C from data group by A, B", method = "raw")

dplyrdplyrの代替：

library(dplyr) data %>% group_by(A, B) %>% summarise(test = toString(C)) %>% ungroup()

plyr

# plyr library(plyr) ddply(data, .(A,B), summarize, C = toString(C))

A5C1D2H2I1M1N2O1R2T1 · Answer

置く場所を変更するas.character：

> out <- ddply(data, .(A, B), summarise, test = list(as.character(C))) > str(out) 'data.frame': 4 obs. of 3 variables: $ A : num 111 111 222 222 $ B : int 1 2 1 2 $ test:List of 4 ..$ : chr "5" "7" ..$ : chr "6" ..$ : chr "9" ..$ : chr "8" "10" > out A B test 1 111 1 5, 7 2 111 2 6 3 222 1 9 4 222 2 8, 10

ただし、各項目は実際には単一の文字列ではなく、個別の文字であることに注意してください。つまり、これは「5、7」のように見える実際の文字列ではなく、Rがコンマで区切られて表示される2つの文字「5」と「7」です。

以下と比較してください：

> out2 <- ddply(data, .(A, B), summarise, test = paste(C, collapse = ", ")) > str(out2) 'data.frame': 4 obs. of 3 variables: $ A : num 111 111 222 222 $ B : int 1 2 1 2 $ test: chr "5, 7" "6" "9" "8, 10" > out A B test 1 111 1 5, 7 2 111 2 6 3 222 1 9 4 222 2 8, 10

ベースRの同等のソリューションは、もちろんaggregateです：

> A1 <- aggregate(C ~ A + B, data, function(x) c(as.character(x))) > str(A1) 'data.frame': 4 obs. of 3 variables: $ A: num 111 222 111 222 $ B: int 1 1 2 2 $ C:List of 4 ..$ 0: chr "5" "7" ..$ 1: chr "9" ..$ 2: chr "6" ..$ 3: chr "8" "10" > A2 <- aggregate(C ~ A + B, data, paste, collapse = ", ") > str(A2) 'data.frame': 4 obs. of 3 variables: $ A: num 111 222 111 222 $ B: int 1 1 2 2 $ C: chr "5, 7" "9" "6" "8, 10"

Ben G · Answer

stringr/tidyverseソリューションは次のとおりです。

library(tidyverse) library(stringr) data <- data.frame(A = c(rep(111, 3), rep(222, 3)), B = rep(1:2, 3), C = c(5:10)) data %>% group_by(A, B) %>% summarize(text = str_c(C, collapse = ", ")) # A tibble: 4 x 3 # Groups: A [2] A B test <dbl> <int> <chr> 1 111 1 5, 7 2 111 2 6 3 222 1 9 4 222 2 8, 10