ある場所で、私が本当に単一のビッグデータフレームに変換したいデータフレームのリストになってしまうコードがあります。
私は 以前の質問 からいくつかのポインタを得ました。
これが私が始めているものの例です(これは実例のために非常に単純化されています):
listOfDataFrames <- vector(mode = "list", length = 100)
for (i in 1:100) {
listOfDataFrames[[i]] <- data.frame(a=sample(letters, 500, rep=T),
b=rnorm(500), c=rnorm(500))
}
私は現在これを使っています:
df <- do.call("rbind", listOfDataFrames)
Dplyrパッケージのbind_rows()を使用してください。
bind_rows(list_of_dataframes, .id = "column_label")
もう1つの選択肢は、plyr関数を使用することです。
df <- ldply(listOfDataFrames, data.frame)
これは元のものより少し遅くなります。
> system.time({ df <- do.call("rbind", listOfDataFrames) })
user system elapsed
0.25 0.00 0.25
> system.time({ df2 <- ldply(listOfDataFrames, data.frame) })
user system elapsed
0.30 0.00 0.29
> identical(df, df2)
[1] TRUE
(a)data.framesの代わりに行列を使用し、(b)成長するのではなく、事前に行列を割り当てて代入するようなことができないのでない限り、do.call("rbind", ...)
を使用するのが最善の方法です。それ。
編集1:
Hadleyのコメントに基づいて、これはCRANからのrbind.fill
の最新版です:
> system.time({ df3 <- rbind.fill(listOfDataFrames) })
user system elapsed
0.24 0.00 0.23
> identical(df, df3)
[1] TRUE
これは、rbindよりも簡単で、わずかに速くなります(これらのタイミングは複数の実行に耐えます)。そして私が理解している限りでは、 githubのplyr
のバージョン はこれよりもっと速いです。
完全を期すために、この質問に対する回答には更新が必要だと思いました。 「do.call("rbind", ...)
を使うのがあなたが見つける最も速いアプローチになるだろうと私は思います...」それはおそらく2010年5月としばらく後に本当でした、しかし2011年9月頃に新しい関数rbindlist
がdata.table
パッケージバージョンで導入されました1.8.2、「これはdo.call("rbind",l)
と同じですが、はるかに高速です」というコメントがあります。どれくらい速いですか?
library(rbenchmark)
benchmark(
do.call = do.call("rbind", listOfDataFrames),
plyr_rbind.fill = plyr::rbind.fill(listOfDataFrames),
plyr_ldply = plyr::ldply(listOfDataFrames, data.frame),
data.table_rbindlist = as.data.frame(data.table::rbindlist(listOfDataFrames)),
replications = 100, order = "relative",
columns=c('test','replications', 'elapsed','relative')
)
test replications elapsed relative
4 data.table_rbindlist 100 0.11 1.000
1 do.call 100 9.39 85.364
2 plyr_rbind.fill 100 12.08 109.818
3 plyr_ldply 100 15.14 137.636
コード:
library(microbenchmark)
dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
c=rep(LETTERS,10),d=rep(LETTERS,10))
}
mb <- microbenchmark(
plyr::rbind.fill(dflist),
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
plyr::ldply(dflist,data.frame),
do.call("rbind",dflist),
times=1000)
ggplot2::autoplot(mb)
セッション:
R version 3.3.0 (2016-05-03)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
> packageVersion("plyr")
[1] ‘1.8.4’
> packageVersion("dplyr")
[1] ‘0.5.0’
> packageVersion("data.table")
[1] ‘1.9.6’
UPDATE:2018年1月31日に再実行。同じコンピュータ上で走った。パッケージの新しいバージョン種愛好家のための種を追加しました。
set.seed(21)
library(microbenchmark)
dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
c=rep(LETTERS,10),d=rep(LETTERS,10))
}
mb <- microbenchmark(
plyr::rbind.fill(dflist),
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
plyr::ldply(dflist,data.frame),
do.call("rbind",dflist),
times=1000)
ggplot2::autoplot(mb)+theme_bw()
R version 3.4.0 (2017-04-21)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
> packageVersion("plyr")
[1] ‘1.8.4’
> packageVersion("dplyr")
[1] ‘0.7.2’
> packageVersion("data.table")
[1] ‘1.10.4’
dplyr
にもbind_rows(x, ...)
があります。
> system.time({ df.Base <- do.call("rbind", listOfDataFrames) })
user system elapsed
0.08 0.00 0.07
>
> system.time({ df.dplyr <- as.data.frame(bind_rows(listOfDataFrames)) })
user system elapsed
0.01 0.00 0.02
>
> identical(df.Base, df.dplyr)
[1] TRUE
これを行うことができる別の方法があります(reduce
はループの代わりとして見過ごされがちな非常に効果的な機能的ツールであるため、答えにそれを追加するだけです)。
ベースRを使う:
df <- Reduce(rbind, listOfDataFrames)
または、片づけを使用して:
library(tidyverse) # or, library(dplyr); library(purrr)
df <- listOfDataFrames %>% reduce(bind_rows)
それがどのように片付けられるべきであるか:
df.dplyr.purrr <- listOfDataFrames %>% map_df(bind_rows)
最近の回答を比較したい人のための最新のビジュアル(purrrとdplyrの解決策を比較したい)。基本的に私は@TheVTMと@rmfの答えをまとめました。
コード:
library(microbenchmark)
library(data.table)
library(tidyverse)
dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
c=rep(LETTERS,10),d=rep(LETTERS,10))
}
mb <- microbenchmark(
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
purrr::map_df(dflist, bind_rows),
do.call("rbind",dflist),
times=500)
ggplot2::autoplot(mb)
セッション情報:
sessionInfo()
R version 3.4.1 (2017-06-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
パッケージのバージョン
> packageVersion("tidyverse")
[1] ‘1.1.1’
> packageVersion("data.table")
[1] ‘1.10.0’
data.table
の解決策が欠けている唯一のものは、データがリストのどのデータフレームから来たのかを知るためのidentifierカラムです。
このようなもの:
df_id <- data.table::rbindlist(listOfDataFrames, idcol = TRUE)
idcol
パラメーターは、リストに含まれるデータフレームの起点を識別する列(.id
)を追加します。結果は次のようになります。
.id a b c
1 u -0.05315128 -1.31975849
1 b -1.00404849 1.15257952
1 y 1.17478229 -0.91043925
1 q -1.65488899 0.05846295
1 c -1.43730524 0.95245909
1 b 0.56434313 0.93813197