Data.tableの各行に関数を効率的に適用する方法を探しています。次のデータテーブルについて考えてみましょう。
library(data.table)
library(stringr)
x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
列b
の各要素をスペースで分割し(したがって、元のデータの各行に2つの行を生成)、結果のデータテーブルを結合するとします。上記の例では、次の結果が必要です。
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
以下は機能します列a
に一意の値しかない場合:
x[, list(str_split(b, ' ')[[1]]), by = a]
次のほぼは機能しますが(元のデータテーブルに同じ行がいくつかない限り)、x
に多くの列があり、列bを結果にコピーする場合は醜いです。避けるために。
> x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
a b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19
この問題を解決するための最も効率的で慣用的な方法は何でしょうか?
どうですか:
x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
コメントを与えられた一般化された解決策:
x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]
x[, .(a,strsplit(b,' ')), by = .I]
より審美的に見える
1つのオプションは、行番号を追加することです
x[, r := 1:nrow(x)]
次に、r
でグループ化します。
x[, list(a, str_split(b, ' ')[[1]]), by = r]
より良い解決策があるかどうか疑問に思っていますか?
最も効果的で慣用的なアプローチは、ベクトル化された関数を持つことです。
この場合、ある種のregex
があなたが望むことをします
x[, V1 := gsub(" [[:alnum:]]*", "", b)]
a b V1
1: 1 12 13 12
2: 2 14 15 14
3: 3 16 17 16
4: 1 18 19 18
各分割コンポーネントを返したい場合で、それぞれに2つあることがわかっている場合は、Map
を使用して、strsplit
の結果を正しい形式に強制変換できます。
x[, c('b1','b2') := do.call(Map, c(f = c, strsplit(b, ' ')))]
x
a b b1 b2
1: 1 12 13 12 13
2: 2 14 15 14 15
3: 3 16 17 16 17
4: 1 18 19 18 19
_x[, .(a,strsplit(b,' ')), by=1:nrow(x)]
_
by=nrow(x)
は、グループごとに1行を強制する簡単な方法です。
dplyr
/tidyr
アプローチは、データテーブルでも機能します。
library(dplyr)
library(tidyr)
x %>%
separate(b, into = c("b1", "b2")) %>%
gather(b, "V1", b1:b2) %>%
arrange(V1) %>%
select(a, V1)
または、標準の評価フォームを使用します。
x %>%
separate_("b", into = c("b1", "b2")) %>%
gather_("b", "V1", c("b1", "b2")) %>%
arrange_(~ V1) %>%
select_(~ a, ~ V1)
b
列の値の数が異なる場合は、少しだけ複雑になります。
library(stringr)
x2 <- data.table(
a = c(1:3, 1),
b = c('12 13', '14', '15 16 17', '18 19')
)
n <- max(str_count(x2$b, " ")) + 1
b_cols <- paste0("b", seq_len(n))
x2 %>%
separate_("b", into = b_cols, extra = "drop") %>%
gather_("b", "V1", b_cols) %>%
arrange_(~ V1) %>%
select_(~ a, ~ V1)
入力と目的の出力を見ると、これは機能するはずです-
x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19"))
data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))