パラメータ用に1列、グループ識別子用に1列のデータフレームから平均とsdを計算したいと思います。 tapply
を使用する場合、どうすればそれらを計算できますか? sd(v1, group, na.rm=TRUE)
を使用することはできますが、tapply
を使用すると、na.rm=TRUE
をステートメントに適合させることができません。 omit.na
はオプションではありません。私はたくさんのパラメータを持っており、1つの欠落値を持つすべての行を除外するときに、データフレームの半分を失うことなく、それらを段階的に実行する必要があります。
data("weightgain", package = "HSAUR")
tapply(weightgain$weightgain, list(weightgain$source, weightgain$type), mean)
同じことがby
ステートメントにも当てはまります。
x<-c(1,2,3,4,5,6,7,8,9,NA)
y<-c(2,3,NA,3,4,NA,2,3,NA,2)
group<-rep((factor(LETTERS[1:2])),5)
df<-data.frame(x,y,group)
df
by(df$x,df$group,summary)
by(df$x,df$group,mean)
sd(df$x) #result: NA
sd(df$x, na.rm=TRUE) #result: 2.738613
これを行う方法について何かアイデアはありますか?
私はこれがあなたが望むことをするべきだと思います。
必要な列を選択します。
v = c("x", "y")#or
v = colnames(df)[1:2]
sapply
を使用してv
を反復処理し、値をtapply
に渡します。
sapply(v, function(i) tapply(df[[i]], df$group, sd, na.rm=TRUE))
tapply
関数でna.rm=TRUE
を設定するだけです。
tapply(weightgain$weightgain, list(weightgain$source, weightgain$type), mean, na.rm=TRUE)