web-dev-qa-db-ja.com

因子のレベルに基づいてdata.frameを新しいdata.framesに分割します

ファクターのレベルに基づいて個別の_data.frame_オブジェクトを作成しようとしています。だから私が持っている場合:

_df <- data.frame(
  x=rnorm(25),
  y=rnorm(25),
  g=rep(factor(LETTERS[1:5]), 5)
)
_

対応するdfおよびg値を含むxの各レベルに対して、yを個別の_data.frame_ sに分割するにはどうすればよいですか? split(df, df$g)を使用してほとんどの方法を取得できますが、ファクタの各レベルに独自の_data.frame_が必要です。これを行う最良の方法は何ですか?

ありがとう。

43
smillig

splitはまさにあなたが望むことをしていると思います。

strで見られるように、Xはデータフレームのリストであることに注意してください。

X <- split(df, df$g)
str(X)

グループgの名前を持つ個々のオブジェクトが必要な場合は、Xの要素をsplitからそれらの名前のオブジェクトに割り当てることができますが、リストsplitが作成します。

#I used lapply just to drop the third column g which is no longer needed.
Y <- lapply(seq_along(X), function(x) as.data.frame(X[[x]])[, 1:2]) 

#Assign the dataframes in the list Y to individual objects
A <- Y[[1]]
B <- Y[[2]]
C <- Y[[3]]
D <- Y[[4]]
E <- Y[[5]]

#Or use lapply with assign to assign each piece to an object all at once
lapply(seq_along(Y), function(x) {
    assign(c("A", "B", "C", "D", "E")[x], Y[[x]], envir=.GlobalEnv)
    }
)

編集またはlapplyを使用してグローバル環境に割り当てるよりも優れていますlist2env

names(Y) <- c("A", "B", "C", "D", "E")
list2env(Y, envir = .GlobalEnv)
A
81
Tyler Rinker

dplyr 0.8.0なので、group_splitと同様の動作をするbase::splitも使用できます。

library(dplyr)
df %>% group_split(g)

#[[1]]
# A tibble: 5 x 3
#       x      y g    
#   <dbl>  <dbl> <fct>
#1 -1.21  -1.45  A    
#2  0.506  1.10  A    
#3 -0.477 -1.17  A    
#4 -0.110  1.45  A    
#5  0.134 -0.969 A    

#[[2]]
# A tibble: 5 x 3
#       x      y g    
#   <dbl>  <dbl> <fct>
#1  0.277  0.575 B    
#2 -0.575 -0.476 B    
#3 -0.998 -2.18  B    
#4 -0.511 -1.07  B    
#5 -0.491 -1.11  B  
#....

また、グループ化された列を保持するかどうかを指定する引数keep(デフォルトではTRUE)が付属しています。

df %>% group_split(g, keep = FALSE)

#[[1]]
# A tibble: 5 x 2
#       x      y
#   <dbl>  <dbl>
#1 -1.21  -1.45 
#2  0.506  1.10 
#3 -0.477 -1.17 
#4 -0.110  1.45 
#5  0.134 -0.969

#[[2]]
# A tibble: 5 x 2
#       x      y
#   <dbl>  <dbl>
#1  0.277  0.575
#2 -0.575 -0.476
#3 -0.998 -2.18 
#4 -0.511 -1.07 
#5 -0.491 -1.11 
#....

base::splitdplyr::group_splitの違いは、group_splitがグループ化に基づいてリストの要素に名前を付けないことです。そう

df1 <- df %>% group_split(g)
names(df1) #gives 
NULL

一方

df2 <- split(df, df$g)
names(df2) #gives
#[1] "A" "B" "C" "D" "E"

データ

set.seed(1234)
df <- data.frame(
      x=rnorm(25),
      y=rnorm(25),
      g=rep(factor(LETTERS[1:5]), 5)
)
2
Ronak Shah