因子のレベルに基づいてdata.frameを新しいdata.framesに分割します

Question

ファクターのレベルに基づいて個別の_data.frame_オブジェクトを作成しようとしています。だから私が持っている場合：

_df <- data.frame( x=rnorm(25), y=rnorm(25), g=rep(factor(LETTERS[1:5]), 5) ) _

対応するdfおよびg値を含むxの各レベルに対して、yを個別の_data.frame_ sに分割するにはどうすればよいですか？ split(df, df$g)を使用してほとんどの方法を取得できますが、ファクタの各レベルに独自の_data.frame_が必要です。これを行う最良の方法は何ですか？

ありがとう。

Tyler Rinker · Accepted Answer

splitはまさにあなたが望むことをしていると思います。

strで見られるように、Xはデータフレームのリストであることに注意してください。

X <- split(df, df$g) str(X)

グループgの名前を持つ個々のオブジェクトが必要な場合は、Xの要素をsplitからそれらの名前のオブジェクトに割り当てることができますが、リストsplitが作成します。

#I used lapply just to drop the third column g which is no longer needed. Y <- lapply(seq_along(X), function(x) as.data.frame(X[[x]])[, 1:2]) #Assign the dataframes in the list Y to individual objects A <- Y[[1]] B <- Y[[2]] C <- Y[[3]] D <- Y[[4]] E <- Y[[5]] #Or use lapply with assign to assign each piece to an object all at once lapply(seq_along(Y), function(x) { assign(c("A", "B", "C", "D", "E")[x], Y[[x]], envir=.GlobalEnv) } )

編集またはlapplyを使用してグローバル環境に割り当てるよりも優れていますlist2env：

names(Y) <- c("A", "B", "C", "D", "E") list2env(Y, envir = .GlobalEnv) A

Ronak Shah · Answer

dplyr 0.8.0なので、group_splitと同様の動作をするbase::splitも使用できます。

library(dplyr) df %>% group_split(g) #[[1]] # A tibble: 5 x 3 # x y g # <dbl> <dbl> <fct> #1 -1.21 -1.45 A #2 0.506 1.10 A #3 -0.477 -1.17 A #4 -0.110 1.45 A #5 0.134 -0.969 A #[[2]] # A tibble: 5 x 3 # x y g # <dbl> <dbl> <fct> #1 0.277 0.575 B #2 -0.575 -0.476 B #3 -0.998 -2.18 B #4 -0.511 -1.07 B #5 -0.491 -1.11 B #....

また、グループ化された列を保持するかどうかを指定する引数keep（デフォルトではTRUE）が付属しています。

df %>% group_split(g, keep = FALSE) #[[1]] # A tibble: 5 x 2 # x y # <dbl> <dbl> #1 -1.21 -1.45 #2 0.506 1.10 #3 -0.477 -1.17 #4 -0.110 1.45 #5 0.134 -0.969 #[[2]] # A tibble: 5 x 2 # x y # <dbl> <dbl> #1 0.277 0.575 #2 -0.575 -0.476 #3 -0.998 -2.18 #4 -0.511 -1.07 #5 -0.491 -1.11 #....

base::splitとdplyr::group_splitの違いは、group_splitがグループ化に基づいてリストの要素に名前を付けないことです。そう

df1 <- df %>% group_split(g) names(df1) #gives NULL

一方

df2 <- split(df, df$g) names(df2) #gives #[1] "A" "B" "C" "D" "E"

データ

set.seed(1234) df <- data.frame( x=rnorm(25), y=rnorm(25), g=rep(factor(LETTERS[1:5]), 5) )