Data.tableと:=
関数の使用に関連する非常に単純な質問だと思います。 :=
の動作を完全には理解していないと思います。また、同様の問題が発生することがよくあります。
これがいくつかのサンプルデータです
mat <- structure(list(
col1 = c(NA, 0, -0.015038, 0.003817, -0.011407),
col2 = c(0.003745, 0.007463, -0.007407, -0.003731, -0.007491)),
.Names = c("col1", "col2"),
row.names = c(NA, 10L),
class = c("data.table", "data.frame"))
これは
> mat
col1 col2
1: NA 0.003745
2: 0.000000 0.007463
3: -0.015038 -0.007407
4: 0.003817 -0.003731
5: -0.011407 -0.007491
Col1とcol2の合計を与えるcol3という列を作成したいと思います。使用する場合
mat[,col3 := col1 + col2]
# col1 col2 col3
#1: NA 0.003745 NA
#2: 0.000000 0.007463 0.007463
#3: -0.015038 -0.007407 -0.022445
#4: 0.003817 -0.003731 0.000086
#5: -0.011407 -0.007491 -0.018898
次に、最初の行のNAを取得しますが、NAを無視したいと思います。だから私は代わりに試しました
mat[,col3 := sum(col1,col2,na.rm=TRUE)]
# col1 col2 col3
#1: NA 0.003745 -0.030049
#2: 0.000000 0.007463 -0.030049
#3: -0.015038 -0.007407 -0.030049
#4: 0.003817 -0.003731 -0.030049
#5: -0.011407 -0.007491 -0.030049
col1とcol2のすべての要素の合計が得られるので、これは私が求めているものではありません。 :=
...を完全に取得できないと思います。NA値を無視してcol1とcol2の要素の合計を取得するにはどうすればよいですか?
これが関連するかどうかはわかりませんが、これが私のsessionInfoです
> sessionInfo()
R version 2.15.1 (2012-06-22)
Platform: x86_64-Apple-darwin9.8.0/x86_64 (64-bit)
locale:
[1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] data.table_1.8.3
これは、data.tableの理解の欠如ではなく、Rのベクトル化された関数に関するものです。欠落値に関して「+」演算子とは異なる動作をする2項演算子を定義できます。
`%+na%` <- function(x,y) {ifelse( is.na(x), y, ifelse( is.na(y), x, x+y) )}
mat[ , col3:= col1 %+na% col2]
#-------------------------------
col1 col2 col3
1: NA 0.003745 0.003745
2: 0.000000 0.007463 0.007463
3: -0.015038 -0.007407 -0.022445
4: 0.003817 -0.003731 0.000086
5: -0.011407 -0.007491 -0.018898
Mrdwadのコメントを使用して、sum(... , na.rm=TRUE
)でそれを行うことができます。
mat[ , col4 := sum(col1, col2, na.rm=TRUE), by=1:NROW(mat)]
これは標準のR
の動作であり、data.table
とは実際には何の関係もありません。
NA
に何かを追加すると、NA
が返されます
NA + 1
## NA
sum
は単一の数値を返します
1 + NA
が1
を返すようにしたい場合
次に、次のようなものを実行する必要があります
mat[,col3 := col1 + col2]
mat[is.na(col1), col3 := col2]
mat[is.na(col2), col3 := col1]
col1
またはcol2
がNA
の場合に対処する
na.rm
引数を持つrowSumsを使用することもできます
mat[ , col3 :=rowSums(.SD, na.rm = TRUE), .SDcols = c("col1", "col2")]
rowSums
は必要なものです(定義上、col1
とcol2
を含む行列のrowSums
は、NA
値を削除します
(@JoshuaUlrichはこれをコメントとして提案しました)