グループごとに最初の行を選択します

Question

このようなデータフレームから

test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J

各id/stringペアの最初の行で新しいものを作成したいです。 sqldfがRコードを受け入れた場合、クエリは次のようになります。

res <- sqldf("select id, min(rownames(test)), string from test group by id, string") > res id string 1 1 A 3 2 B 5 3 C 7 4 D 9 5 E

次のような新しい列を作成する以外の解決策はありますか

test$row <- rownames(test)

と同じsqldfクエリをmin（row）で実行していますか？

Joshua Ulrich · Accepted Answer

duplicatedを使用して、これを非常に迅速に行うことができます。

test[!duplicated(test$id),]

スピードフリーク向けのベンチマーク：

ju <- function() test[!duplicated(test$id),] gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1)) gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, )) jply <- function() ddply(test,.(id),function(x) head(x,1)) jdt <- function() { testd <- as.data.table(test) setkey(testd,id) # Initial solution (slow) # testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)] # Faster options : testd[!duplicated(id)] # (1) # testd[, .SD[1L], by=key(testd)] # (2) # testd[J(unique(id)),mult="first"] # (3) # testd[ testd[,.I[1L],by=id] ] # (4) needs v1.8.3. Allows 2nd, 3rd etc } library(plyr) library(data.table) library(rbenchmark) # sample data set.seed(21) test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE)) test <- test[order(test$id), ] benchmark(ju(), gs1(), gs2(), jply(), jdt(), replications=5, order="relative")[,1:6] # test replications elapsed relative user.self sys.self # 1 ju() 5 0.03 1.000 0.03 0.00 # 5 jdt() 5 0.03 1.000 0.03 0.00 # 3 gs2() 5 3.49 116.333 2.87 0.58 # 2 gs1() 5 3.58 119.333 3.00 0.58 # 4 jply() 5 3.69 123.000 3.11 0.51

もう一度試してみましょうが、最初のヒートからの候補者だけで、データとレプリケーションを増やします。

set.seed(21) test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE)) test <- test[order(test$id), ] benchmark(ju(), jdt(), order="relative")[,1:6] # test replications elapsed relative user.self sys.self # 1 ju() 100 5.48 1.000 4.44 1.00 # 2 jdt() 100 6.92 1.263 5.70 1.15

mnel · Answer

どう？

DT <- data.table(test) setkey(DT, id) DT[J(unique(id)), mult = "first"]

編集

キーによって最初の行を返すdata.tablesのユニークなメソッドもあります

jdtu <- function() unique(DT)

ベンチマーク外でtestを注文している場合、setkeyおよびdata.table変換もベンチマークから削除できます（setkeyは基本的にidでソートされるため、 orderと同じ）。

set.seed(21) test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE)) test <- test[order(test$id), ] DT <- data.table(DT, key = 'id') ju <- function() test[!duplicated(test$id),] jdt <- function() DT[J(unique(id)),mult = 'first'] library(rbenchmark) benchmark(ju(), jdt(), replications = 5) ## test replications elapsed relative user.self sys.self ## 2 jdt() 5 0.01 1 0.02 0 ## 1 ju() 5 0.05 5 0.05 0

より多くのデータで

**独自の方法で編集**

set.seed(21) test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE)) test <- test[order(test$id), ] DT <- data.table(test, key = 'id') test replications elapsed relative user.self sys.self 2 jdt() 5 0.09 2.25 0.09 0.00 3 jdtu() 5 0.04 1.00 0.05 0.00 1 ju() 5 0.22 5.50 0.19 0.03

ここでは、独自の方法が最速です。

Kresten · Answer

私はdplyrアプローチを好みます。

group_by(id)の後に

filter(row_number()==1)または
slice(1)または
top_n(n = -1)
- top_n()は内部的にランク関数を使用します。ランクの下位からネガティブ選択。

場合によっては、group_byの後にIDを配置する必要があります。

library(dplyr) # using filter(), top_n() or slice() m1 <- test %>% group_by(id) %>% filter(row_number()==1) m2 <- test %>% group_by(id) %>% slice(1) m3 <- test %>% group_by(id) %>% top_n(n = -1)

3つのメソッドはすべて同じ結果を返します

# A tibble: 5 x 2 # Groups: id [5] id string <int> <fct> 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E

joran · Answer

単純なddplyオプション：

ddply(test,.(id),function(x) head(x,1))

速度が問題になる場合は、data.table：

testd <- data.table(test) setkey(testd,id) testd[,.SD[1],by = key(testd)]

または、これはかなり速いかもしれません：

testd[testd[, .I[1], by = key(testd]$V1]

Paul · Answer

現在、dplyrに対して、個別のカウンターを追加しています。

_df %>% group_by(aa, bb) %>% summarise(first=head(value,1), count=n_distinct(value)) _

グループを作成し、グループ内で要約します。

データが数値の場合、次を使用できます。
first(value) [last(value)の代わりにhead(value, 1)]もあります

参照： http://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html

完全：

_> df Source: local data frame [16 x 3] aa bb value 1 1 1 GUT 2 1 1 PER 3 1 2 SUT 4 1 2 GUT 5 1 3 SUT 6 1 3 GUT 7 1 3 PER 8 2 1 221 9 2 1 224 10 2 1 239 11 2 2 217 12 2 2 221 13 2 2 224 14 3 1 GUT 15 3 1 HUL 16 3 1 GUT > library(dplyr) > df %>% > group_by(aa, bb) %>% > summarise(first=head(value,1), count=n_distinct(value)) Source: local data frame [6 x 4] Groups: aa aa bb first count 1 1 1 GUT 2 2 1 2 SUT 2 3 1 3 SUT 3 4 2 1 221 3 5 2 2 217 3 6 3 1 GUT 2 _

G. Grothendieck · Answer

（1）SQLiteにはrowid疑似列が組み込まれているため、これは機能します。

sqldf("select min(rowid) rowid, id, string from test group by id")

与える：

 rowid id string 1 1 1 A 2 3 2 B 3 5 3 C 4 7 4 D 5 9 5 E

（2）sqldf自体にもrow.names=引数：

sqldf("select min(cast(row_names as real)) row_names, id, string from test group by id", row.names = TRUE)

与える：

 id string 1 1 A 3 2 B 5 3 C 7 4 D 9 5 E

（3）上記の2つの要素を混合する3番目の選択肢はさらに優れている可能性があります。

sqldf("select min(rowid) row_names, id, string from test group by id", row.names = TRUE)

与える：

 id string 1 1 A 3 2 B 5 3 C 7 4 D 9 5 E

これら3つはすべて、SQLiteのSQLite拡張機能に依存しており、minまたはmaxを使用すると、他の列が同じ行から選択されることが保証されていることに注意してください。（保証されていない可能性のある他のSQLベースのデータベース。）

Gavin Simpson · Answer

ベースRオプションは、split()-lapply()-do.call()イディオムです。

> do.call(rbind, lapply(split(test, test$id), head, 1)) id string 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E

より直接的なオプションは、lapply() [関数です：

> do.call(rbind, lapply(split(test, test$id), `[`, 1, )) id string 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E

lapply()呼び出しの最後のコンマスペース1, )は、必須です。これは、[1, ]を呼び出して最初の行とすべての列を選択するのと同じです。