data.tableを使用して、列をカウントおよび集計/要約します

Question

data.tableの列をカウントおよび集計（合計）したいのですが、これを行う最も効率的な方法が見つかりませんでした。これは私が望むものに近いようです Rは複数の列をdata.tableで要約します。

私のデータ：

set.seed(321) dat <- data.table(MNTH = c(rep(201501,4), rep(201502,3), rep(201503,5), rep(201504,4)), VAR = sample(c(0,1), 16, replace=T)) > dat MNTH VAR 1: 201501 1 2: 201501 1 3: 201501 0 4: 201501 0 5: 201502 0 6: 201502 0 7: 201502 0 8: 201503 0 9: 201503 0 10: 201503 1 11: 201503 1 12: 201503 0 13: 201504 1 14: 201504 0 15: 201504 1 16: 201504 0

Data.tableを使用してVARでMNTHでカウントと合計を行います。望ましい結果：

 MNTH COUNT VAR 1 201501 4 2 2 201502 3 0 3 201503 5 2 4 201504 4 2

Jaap · Accepted Answer

参照している投稿では、1つの集計方法を複数の列に適用する方法について説明しています。異なる集計方法を異なる列に適用する場合は、次を実行できます。

dat[, .(count = .N, var = sum(VAR)), by = MNTH]

この結果：

 MNTH count var 1: 201501 4 2 2: 201502 3 0 3: 201503 5 2 4: 201504 4 2

参照によりデータセットを更新することにより、これらの値を既存のデータセットに追加することもできます。

dat[, `:=` (count = .N, var = sum(VAR)), by = MNTH]

この結果：

> dat MNTH VAR count var 1: 201501 1 4 2 2: 201501 1 4 2 3: 201501 0 4 2 4: 201501 0 4 2 5: 201502 0 3 0 6: 201502 0 3 0 7: 201502 0 3 0 8: 201503 0 5 2 9: 201503 0 5 2 10: 201503 1 5 2 11: 201503 1 5 2 12: 201503 0 5 2 13: 201504 1 4 2 14: 201504 0 4 2 15: 201504 1 4 2 16: 201504 0 4 2

data.table 構文の使用方法の詳細については、 Getting started guides onを参照してください。 GitHub wiki。