6列のRデータフレームがあり、3列しかない新しいデータフレームを作成したいと思います。
データフレームがdf
で、列A
、B
、およびE
を抽出すると仮定すると、これが私が理解できる唯一のコマンドです。
data.frame(df$A,df$B,df$E)
これを行うよりコンパクトな方法はありますか?
Data.frameがdf1
と呼ばれる場合は、 dplyr パッケージを使用します。
library(dplyr)
df1 %>%
select(A, B, E)
これは%>%
パイプなしで次のように書くこともできます。
select(df1, A, B, E)
列名のベクトルを使用してサブセット化できます。私は、列名をあたかもそれらがオブジェクト名(例えばsubset()
)であるかのように扱うものより、特に関数、パッケージ、またはアプリケーションでプログラミングするときに、このアプローチを強く好みます。
# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[,c("A","B","E")]
これが subset()
関数の役割です。
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4
2つの明白な選択があります:Joshua Ulrichのdf[,c("A","B","E")]
または
df[,c(1,2,5)]
のように
> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> df
A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
A B E
1 1 3 8
2 2 4 8
Rデータフレームの選択を実行するsqldf
パッケージを使うこともできます。
df1 <- sqldf("select A, B, E from df")
これは出力として列A、B、Eを持つデータフレームdf1
を与えます。
何らかの理由で
df[, (names(df) %in% c("A","B","E"))]
私のために働いた。上記のすべての構文で、「未定義の列が選択されました」と表示されます。
Df1は元のデータフレームです。
df2 <- subset(df1, select = c(1, 2, 5))
with
を使うことができます:
with(df, data.frame(A, B, E))
[
とサブセットは代替可能ではありません。
列が1つだけ選択されている場合、[
はベクトルを返します。
df = data.frame(a="a",b="b")
identical(
df[,c("a")],
subset(df,select="a")
)
identical(
df[,c("a","b")],
subset(df,select=c("a","b"))
)