data.table
の参照渡しプロパティを理解するのに少し苦労しています。いくつかの操作は参照を「壊す」ように思われ、何が起こっているのかを正確に理解したいと思います。
別のdata.table
からdata.table
を作成すると(<-
を介して、:=
で新しいテーブルを更新すると、元のテーブルも変更されます。これは次のとおりです。
?data.table::copy
および stackoverflow:data-table-packageのオペレーターによる参照渡し
以下に例を示します。
library(data.table)
DT <- data.table(a=c(1,2), b=c(11,12))
print(DT)
# a b
# [1,] 1 11
# [2,] 2 12
newDT <- DT # reference, not copy
newDT[1, a := 100] # modify new DT
print(DT) # DT is modified too.
# a b
# [1,] 100 11
# [2,] 2 12
ただし、:=
の割り当てと上記の<-
行の間に:=
以外の変更を挿入すると、DT
は変更されなくなります。
DT = data.table(a=c(1,2), b=c(11,12))
newDT <- DT
newDT$b[2] <- 200 # new operation
newDT[1, a := 100]
print(DT)
# a b
# [1,] 1 11
# [2,] 2 12
したがって、newDT$b[2] <- 200
行は何らかの形で参照を「壊す」ようです。これは何らかの形でコピーを呼び出すと思いますが、Rがこれらの操作をどのように処理しているかを完全に理解して、コードに潜在的なバグを導入しないようにします。
誰かがこれを私に説明できたらとても感謝しています。
はい、Rで_<-
_(または_=
_または_->
_)を使用してwholeオブジェクトのコピーを作成するサブ割り当てです。以下のように、tracemem(DT)
および.Internal(inspect(DT))
を使用してトレースできます。 _data.table
_には、_:=
_およびset()
機能があり、それらが渡されるオブジェクトに参照によって割り当てます。そのため、そのオブジェクトが以前にコピーされた場合(_<-
_または明示的なcopy(DT)
のサブ割り当てによって)、参照によって変更されるのはコピーです。
_DT <- data.table(a = c(1, 2), b = c(11, 12))
newDT <- DT
.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
# @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
# @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB: # ..snip..
.Internal(inspect(newDT)) # precisely the same object at this point
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
# @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
# @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB: # ..snip..
tracemem(newDT)
# [1] "<0x0000000003b7e2a0"
newDT$b[2] <- 200
# tracemem[0000000003B7E2A0 -> 00000000040ED948]:
# tracemem[00000000040ED948 -> 00000000040ED830]: .Call copy $<-.data.table $<-
.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),TR,ATT] (len=2, tl=100)
# @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
# @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB: # ..snip..
.Internal(inspect(newDT))
# @0000000003D97A58 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
# @00000000040ED7F8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
# @00000000040ED8D8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,200
# ATTRIB: # ..snip..
_
a
が変更されていない場合でも、a
ベクトルがコピーされたことに注意してください(異なる16進値はベクトルの新しいコピーを示します)。変更が必要な要素を変更するだけでなく、b
全体もコピーされました。これは、大きなデータを避けるために重要であり、なぜ_:=
_とset()
が_data.table
_に導入されたのか。
コピーしたnewDT
を使用して、参照によって変更できます。
_newDT
# a b
# [1,] 1 11
# [2,] 2 200
newDT[2, b := 400]
# a b # See FAQ 2.21 for why this prints newDT
# [1,] 1 11
# [2,] 2 400
.Internal(inspect(newDT))
# @0000000003D97A58 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
# @00000000040ED7F8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
# @00000000040ED8D8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,400
# ATTRIB: # ..snip ..
_
すべての3つの16進値(列ポイントのベクトル、および2つの列のそれぞれ)は変更されないことに注意してください。そのため、コピーはまったくなく、参照によって本当に変更されました。
または、参照により元のDT
を変更できます。
_DT[2, b := 600]
# a b
# [1,] 1 11
# [2,] 2 600
.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
# @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
# @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,600
# ATTRIB: # ..snip..
_
これらの16進値は、上記のDT
で見た元の値と同じです。 tracemem
の使用例と_data.frame
_との比較については、example(copy)
と入力してください。
ところで、tracemem(DT)
then _DT[2,b:=600]
_の場合、1つのコピーが報告されます。これは、print
メソッドが行う最初の10行のコピーです。 invisible()
でラップされた場合、または関数またはスクリプト内で呼び出された場合、print
メソッドは呼び出されません。
これはすべて、関数内でも適用されます。つまり、_:=
_およびset()
は、関数内であっても書き込み時にコピーしません。ローカルコピーを変更する必要がある場合は、関数の開始時にx=copy(x)
を呼び出します。ただし、_data.table
_は大きなデータ用であることに注意してください(小さなデータ用のプログラミングの高速化と同様)。意図的に大きなオブジェクト(決して)をコピーしたくない。その結果、通常の3 *作業メモリ係数の経験則を考慮する必要はありません。 1列の作業メモリ(つまり、3ではなく1/ncolの作業メモリ係数)のみが必要です。
_<-
_と_data.table
_は、baseに似ています。つまり、後で_<-
_でサブ割り当てが行われるまで(列名の変更や_DT[i,j]<-v
_などの要素の変更など)、コピーは行われません。次に、ベースのようにオブジェクト全体のコピーを取ります。それはコピーオンライトとして知られています。コピーオンサブアサインとしてよく知られていると思います!特別な_:=
_演算子、または_set*
_が提供する_data.table
_関数を使用した場合、コピーは行われません。大きなデータがある場合は、代わりにそれらを使用することをお勧めします。 _:=
_および_set*
_は、関数内であっても_data.table
_をコピーしません。
この例のデータを考えると:
_DT <- data.table(a=c(1,2), b=c(11,12))
_
次は、別の名前_DT2
_を、名前DT
に現在バインドされている同じデータオブジェクトに単に「バインド」します。
_DT2 <- DT
_
これは決してコピーせず、ベースでもコピーしません。 Rが2つの異なる名前(_DT2
_およびDT
)が同じオブジェクトを指していることを認識するように、データオブジェクトをマークするだけです。そのため、Rはsubassignedが後である場合、オブジェクトをコピーする必要があります。
それは_data.table
_にも最適です。 _:=
_はそうするためのものではありません。 _:=
_はオブジェクト名をバインドするためだけのものではないため、次は意図的なエラーです。
_DT2 := DT # not what := is for, not defined, gives a Nice error
_
_:=
_は、参照によるsubassigning用です。ただし、baseで使用するようには使用しません。
_DT[3,"foo"] := newvalue # not like this
_
このように使用します:
_DT[3,foo:=newvalue] # like this
_
参照によりDT
が変更されました。データオブジェクトへの参照によって新しい列new
を追加するとします。これを行う必要はありません。
_DT <- DT[,new:=1L]
_
rHSは既にDT
を参照により変更しているためです。余分な_DT <-
_は、_:=
_の機能を誤解することです。そこにそれを書くことができますが、それは余分です。
DT
は、参照により、_:=
_により、関数内でも変更されます。
_f <- function(X){
X[,new2:=2L]
return("something else")
}
f(DT) # will change DT
DT2 <- DT
f(DT) # will change both DT and DT2 (they're the same data object)
_
_data.table
_は大規模なデータセット用です、覚えておいてください。メモリに20GB _data.table
_がある場合、これを行う方法が必要です。 _data.table
_の非常に慎重な設計決定です。
もちろん、コピーを作成できます。 copy()
関数を使用して、data.tableに20GBデータセットをコピーすることを確認する必要があります。
_DT3 <- copy(DT) # rather than DT3 <- DT
DT3[,new3:=3L] # now, this just changes DT3 because it's a copy, not DT too.
_
コピーを避けるために、ベースタイプの割り当てまたは更新を使用しないでください。
_DT$new4 <- 1L # will make a copy so use :=
attr(DT,"sorted") <- "a" # will make a copy use setattr()
_
参照による更新を確実にしたい場合は、.Internal(inspect(x))
を使用して、構成要素のメモリアドレス値を調べます(Matthew Dowleの回答を参照)。
_:=
_をj
に記述すると、参照による副割り当てが可能になりますby group。グループごとの参照により、新しい列を追加できます。そのため、_:=
_は_[...]
_内でそのように行われます。
_DT[, newcol:=mean(x), by=group]
_