Rのデータフレーム内の値を高速に置換

Question

値を含む2,000列の150,000行のデータフレームがありますが、一部は負です。これらの負の値を0に置き換えていますが、そうするのは非常に遅いです（〜60分以上）。

df[df < 0] = 0

どこ df[,1441:1453]は次のようになります（すべての列/値は数値）：

 V1441 V1442 V1443 V1444 V1445 V1446 V1447 V1448 V1449 V1450 V1451 V1452 V1453 1 3 1 0 4 4 -2 0 3 12 5 17 34 27 2 0 1 0 7 0 0 0 1 0 0 0 0 0 3 0 2 0 1 2 3 6 1 2 1 -6 3 1 4 1 2 3 6 1 2 1 -6 3 1 -4 1 0 5 1 2 1 -6 3 1 -4 1 0 0 1 0 0 6 1 0 0 1 0 0 0 0 0 0 1 2 2

そのようなプロセスをスピードアップする方法はありますか、例えば、私がそれをしている方法は全く遅いです、そしてこれのためのより速いアプローチがありますか？ありがとう。

Roland · Accepted Answer

Dfをマトリックスに変換してみてください。

df <- data.frame(a=rnorm(1000),b=rnorm(1000)) m <- as.matrix(df) m[m<0] <- 0 df <- as.data.frame(m)

mnel · Answer

元のアプローチと現在の回答の両方が、m<0を作成するときにm（またはdf）と同じサイズのオブジェクトを作成します（[<-と比較すると、[<-.data.frameとの内部コピーが少ないため、マトリックスアプローチは高速です）

lapplyとreplaceを使用できます。その場合、ベクトルまたはlength (nrow(df))だけを見て、あまりコピーしません

df <- as.data.frame(lapply(df, function(x){replace(x, x <0,0)})

上記のコードは非常に効率的です。

data.tableを使用すると、data.frameアプローチのメモリ（および）時間の非効率性のほとんどが解消されます。あなたのような大規模なデータの状況に理想的です。

library(data.table) # this really shouldn't be DT <- lapply(df, function(x){replace(x, x <0,0)}) # change to data.table setattr(DT, 'class', c('data.table','data.frame')) # or # DT <- as.data.table(df, function(x){replace(x, x <0,0)})

すべての列にキーを設定し、0未満のキー値の参照で置き換えることができます

jangorecki · Answer

別のdata.tableの回答は、より高速である可能性があり、間違いなくより少ないメモリを消費するはずです。

library(data.table) set.seed(108) d = data.table(a=rnorm(1000),b=rnorm(1000)) set.colwise = function(x, i, j, value) { replace_dot_j = function(e, j) { if (is.symbol(e) && identical(e, as.symbol(".j"))) return(j) if (is.call(e)) { if (e[[1L]] == ".j") e[[1L]] = j for (i in seq_along(e)[-1L]) if (!is.null(e[[i]])) e[[i]] = replace_dot_j(e[[i]], j) } e } for (jj in j) eval(substitute( set(x, .i, .j, value), list( .i=replace_dot_j(substitute(i), jj), .j=jj ) )) invisible(x) } d set.colwise(d, i = which(d[[.j]] < 0), j = c("a","b"), value = 0) d

i引数で使用される.jシンボルは反復され、j引数の列に置き換えられます。