apply
または関連する関数を使用して、非常に大きなデータフレームの列の各ペアの行平均の結果を含む新しいデータフレームを作成するにはどうすればよいですか?
多数のサンプルでn
反復測定を出力する機器があります。ここで、各単一の測定はベクトルです(すべての測定は同じ長さのベクトルです)。各サンプルのすべての反復測定の平均(およびその他の統計)を計算したいと思います。これは、n
の連続する列をグループ化し、行ごとの計算を行う必要があることを意味します。
簡単な例として、2つのサンプルで3つのレプリケート測定を行う場合、2つの列(サンプルごとに1つ)を持つデータフレームを作成するにはどうすればよいですか。1つはdat$a
、dat$b
、dat$c
のレプリケートの各行の平均であり、これは、dat$d
、dat$e
、およびdat$f
の各行の平均です。
これがいくつかのサンプルデータです
dat <- data.frame( a = rnorm(16), b = rnorm(16), c = rnorm(16), d = rnorm(16), e = rnorm(16), f = rnorm(16))
a b c d e f
1 -0.9089594 -0.8144765 0.872691548 0.4051094 -0.09705234 -1.5100709
2 0.7993102 0.3243804 0.394560355 0.6646588 0.91033497 2.2504104
3 0.2963102 -0.2911078 -0.243723116 1.0661698 -0.89747522 -0.8455833
4 -0.4311512 -0.5997466 -0.545381175 0.3495578 0.38359390 0.4999425
5 -0.4955802 1.8949285 -0.266580411 1.2773987 -0.79373386 -1.8664651
6 1.0957793 -0.3326867 -1.116623982 -0.8584253 0.83704172 1.8368212
7 -0.2529444 0.5792413 -0.001950741 0.2661068 1.17515099 0.4875377
8 1.2560402 0.1354533 1.440160168 -2.1295397 2.05025701 1.0377283
9 0.8123061 0.4453768 1.598246016 0.7146553 -1.09476532 0.0600665
10 0.1084029 -0.4934862 -0.584671816 -0.8096653 1.54466019 -1.8117459
11 -0.8152812 0.9494620 0.100909570 1.5944528 1.56724269 0.6839954
12 0.3130357 2.6245864 1.750448404 -0.7494403 1.06055267 1.0358267
13 1.1976817 -1.2110708 0.719397607 -0.2690107 0.83364274 -0.6895936
14 -2.1860098 -0.8488031 -0.302743475 -0.7348443 0.34302096 -0.8024803
15 0.2361756 0.6773727 1.279737692 0.8742478 -0.03064782 -0.4874172
16 -1.5634527 -0.8276335 0.753090683 2.0394865 0.79006103 0.5704210
私はこのようなものを求めています
X1 X2
1 -0.28358147 -0.40067128
2 0.50608365 1.27513471
3 -0.07950691 -0.22562957
4 -0.52542633 0.41103139
5 0.37758930 -0.46093340
6 -0.11784382 0.60514586
7 0.10811540 0.64293184
8 0.94388455 0.31948189
9 0.95197629 -0.10668118
10 -0.32325169 -0.35891702
11 0.07836345 1.28189698
12 1.56269017 0.44897971
13 0.23533617 -0.04165384
14 -1.11251880 -0.39810121
15 0.73109533 0.11872758
16 -0.54599850 1.13332286
私はこれでこれを行いましたが、明らかに私のはるかに大きなデータフレームには適していません...
data.frame(cbind(
apply(cbind(dat$a, dat$b, dat$c), 1, mean),
apply(cbind(dat$d, dat$e, dat$f), 1, mean)
))
apply
とループを試しましたが、うまくまとめることができません。私の実際のデータには数百の列があります。
これは、インデックスのリストを渡すという点で、状況により一般化できる場合があります。速度が問題になる場合(データフレームが大きい場合)、lapply
ではなくdo.call
を使用してsapply
を選択します。
x <- list(1:3, 4:6)
do.call(cbind, lapply(x, function(i) rowMeans(dat[, i])))
Col名だけでも機能します:
x <- list(c('a','b','c'), c('d', 'e', 'f'))
do.call(cbind, lapply(x, function(i) rowMeans(dat[, i])))
[〜#〜]編集[〜#〜]
たまたま、これを自動化して3列ごとに実行したいと思ったのかもしれません。より良い方法があることは知っていますが、ここでは100列のデータセットにあります。
dat <- data.frame(matrix(rnorm(16*100), ncol=100))
n <- 1:ncol(dat)
ind <- matrix(c(n, rep(NA, 3 - ncol(dat)%%3)), byrow=TRUE, ncol=3)
ind <- data.frame(t(na.omit(ind)))
do.call(cbind, lapply(ind, function(i) rowMeans(dat[, i])))
編集2まだインデックス作成に満足していません。インデックスを渡すためのより良い/より速い方法があると思います。これは、満足のいく方法ではありませんが、2番目の方法です。
n <- 1:ncol(dat)
ind <- data.frame(matrix(c(n, rep(NA, 3 - ncol(dat)%%3)), byrow=F, nrow=3))
nonna <- sapply(ind, function(x) all(!is.na(x)))
ind <- ind[, nonna]
do.call(cbind, lapply(ind, function(i)rowMeans(dat[, i])))
同様の質問が@davidによってここで尋ねられました: rの16列ごとに平均化 (現在は閉じられています)、@ joranと@Benの提案に従って、上記の@TylerRinkerの回答を適応させて回答しました。結果の関数はOPまたは将来の読者に役立つ可能性があるため、OPのデータの例とともに、その関数をここにコピーします。
# Function to apply 'fun' to object 'x' over every 'by' columns
# Alternatively, 'by' may be a vector of groups
byapply <- function(x, by, fun, ...)
{
# Create index list
if (length(by) == 1)
{
nc <- ncol(x)
split.index <- rep(1:ceiling(nc / by), each = by, length.out = nc)
} else # 'by' is a vector of groups
{
nc <- length(by)
split.index <- by
}
index.list <- split(seq(from = 1, to = nc), split.index)
# Pass index list to fun using sapply() and return object
sapply(index.list, function(i)
{
do.call(fun, list(x[, i], ...))
})
}
次に、複製の平均を見つけるには:
byapply(dat, 3, rowMeans)
または、おそらくレプリケートの標準偏差:
byapply(dat, 3, apply, 1, sd)
更新
by
は、グループのベクトルとして指定することもできます。
byapply(dat, c(1,1,1,2,2,2), rowMeans)
ベクトルa、b、cからの行の平均
rowMeans(dat[1:3])
ベクトルd、e、fからの行の平均
rowMeans(dat[4:6])
オールインワンコールで
results<-cbind(rowMeans(dat[1:3]),rowMeans(dat[4:6]))
列の名前だけがわかっていて、順序がわからない場合は、次を使用できます。
rowMeans(cbind(dat["a"],dat["b"],dat["c"]))
rowMeans(cbind(dat["d"],dat["e"],dat["f"]))
#I dont know how much damage this does to speed but should still be quick
rowMeans
ソリューションの方が高速ですが、完全を期すために、apply
を使用してこれを行う方法を次に示します。
t(apply(dat,1,function(x){ c(mean(x[1:3]),mean(x[4:6])) }))
@joranの提案に触発されて、私はこれを思いつきました(転置の提案は特に有用でしたが、実際には彼の提案とは少し異なります):
p
colsを使用してサンプルデータのデータフレームを作成し、現実的なデータセットをシミュレートします(上記の@TylerRinkerの回答に従い、質問の私の貧弱な例とは異なります)
p <- 99 # how many columns?
dat <- data.frame(matrix(rnorm(4*p), ncol = p))
このデータフレームの列の名前を変更して、n
の連続する列のグループを作成します。これにより、3つの列のグループに関心がある場合は、1,1,1,2,2,2、のような列名が得られます。 3,3,3など、または4列のグループが必要な場合は、1,1,1,1,2,2,2,2,3,3,3,3などになります。3つにします。今のところ(これは、インデックス作成についてあまり知らない私のような人々のための一種のインデックス作成だと思います)
n <- 3 # how many consecutive columns in the groups of interest?
names(dat) <- rep(seq(1:(ncol(dat)/n)), each = n, len = (ncol(dat)))
次に、applyとtapplyを使用して、各グループの行平均を取得します。
dat.avs <- data.frame(t(apply(dat, 1, tapply, names(dat), mean)))
主な欠点は、元のデータの列名が置き換えられること(ただし、グループ化番号を列名ではなく新しい行に配置することで解決できます)、列名がapply-tapply関数によって役に立たない状態で返されることです。注文。
@joranの提案に加えて、ここにdata.table
解決:
p <- 99 # how many columns?
dat <- data.frame(matrix(rnorm(4*p), ncol = p))
dat.t <- data.frame(t(dat))
n <- 3 # how many consecutive columns in the groups of interest?
dat.t$groups <- as.character(rep(seq(1:(ncol(dat)/n)), each = n, len = (ncol(dat))))
library(data.table)
DT <- data.table(dat.t)
setkey(DT, groups)
dat.av <- DT[, lapply(.SD,mean), by=groups]
迅速で忍耐強い努力に感謝します!
組み合わせ論として知られている、列の一意の組み合わせごとに関数を適用することに興味がある場合は、美しく単純な解決策があります。
combinations <- combn(colnames(df),2,function(x) rowMeans(df[x]))
3つの列などの一意の組み合わせごとに統計を計算するには、2を3に変更するだけです。演算はベクトル化されているため、上記で使用したapply
ファミリ関数などのループよりも高速です。列の順序が重要な場合は、代わりに、順序セットを再現するように設計された順列アルゴリズムが必要です。combinat::permn