データフレームのグループ化変数内の最初と最後の行を選択する方法

Question

次のデータフレームの一意のidごとに最初と最後の行を選択するにはどうすればよいですか？

tmp <- structure(list(id = c(15L, 15L, 15L, 15L, 21L, 21L, 22L, 22L, 22L, 23L, 23L, 23L, 24L, 24L, 24L, 24L), d = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), gr = c(2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 1L, 1L, 2L, 1L, 1L, 1L, 2L), mm = c(3.4, 4.9, 4.4, 5.5, 4, 3.8, 4, 4.9, 4.6, 2.7, 4, 3, 3, 2, 4, 2), area = c(1L, 2L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 2L, 3L)), .Names = c("id", "d", "gr", "mm", "area"), class = "data.frame", row.names = c(NA, -16L)) tmp #> id d gr mm area #> 1 15 1 2 3.4 1 #> 2 15 1 1 4.9 2 #> 3 15 1 1 4.4 1 #> 4 15 1 1 5.5 2 #> 5 21 1 1 4.0 2 #> 6 21 1 2 3.8 2 #> 7 22 1 1 4.0 2 #> 8 22 1 1 4.9 2 #> 9 22 1 2 4.6 2 #> 10 23 1 1 2.7 2 #> 11 23 1 1 4.0 2 #> 12 23 1 2 3.0 2 #> 13 24 1 1 3.0 2 #> 14 24 1 1 2.0 3 #> 15 24 1 1 4.0 2 #> 16 24 1 2 2.0 3

rcs · Accepted Answer

A plyr ソリューション（tmpはデータフレームです）：

library("plyr") ddply(tmp, .(id), function(x) x[c(1, nrow(x)), ]) # id d gr mm area # 1 15 1 2 3.4 1 # 2 15 1 1 5.5 2 # 3 21 1 1 4.0 2 # 4 21 1 2 3.8 2 # 5 22 1 1 4.0 2 # 6 22 1 2 4.6 2 # 7 23 1 1 2.7 2 # 8 23 1 2 3.0 2 # 9 24 1 1 3.0 2 # 10 24 1 2 2.0 3

または dplyr （ here も参照）：

library("dplyr") tmp %>% group_by(id) %>% slice(c(1, n())) %>% ungroup() # # A tibble: 10 × 5 # id d gr mm area # <int> <int> <int> <dbl> <int> # 1 15 1 2 3.4 1 # 2 15 1 1 5.5 2 # 3 21 1 1 4.0 2 # 4 21 1 2 3.8 2 # 5 22 1 1 4.0 2 # 6 22 1 2 4.6 2 # 7 23 1 1 2.7 2 # 8 23 1 2 3.0 2 # 9 24 1 1 3.0 2 # 10 24 1 2 2.0 3

Matt Dowle · Answer

高速で短い _data.table_ ソリューション：

_tmp[, .SD[c(1,.N)], by=id] _

ここで_.SD_は（D）ataの各（S）ubsetを表し、_.N_は各グループの行数であり、tmpは_data.table_です。例えばデフォルトでfread()によって提供されるか、setDT()を使用して_data.frame_を変換します。

グループに含まれる行が1行のみの場合、その行はグループの最初と最後の行の両方であるため、出力に2回表示されることに注意してください。その場合の繰り返しを避けるため、@ Thellに感謝します。

_tmp[, .SD[unique(c(1,.N))], by=id] _

または、次の例では、_.N==1_特殊なケースのロジックを明示的にしています：

_tmp[, if (.N==1) .SD else .SD[c(1,.N)], by=id] _

ifの最初の部分に_.SD[1]_は必要ありません。なぜなら、その場合_.N_は_1_なので、とにかく_.SD_は1行だけでなければならないからです。

jを_{}_でラップし、必要に応じて_{}_内にコードのページ全体を含めることができます。 _{}_内の最後の式が、スタックされるlist-のようなオブジェクト（プレーンlist、_data.table_または_data.frame_などを返す限り）。

_tmp[, { ...; if (.N==1) .SD else .SD[c(1,.N)] } , by=id] _

Mark Miller · Answer

以下はベースRのソリューションです。同じidを持つ複数のグループがある場合、このコードはそれらの個々のグループのそれぞれの最初と最後の行を返します。

編集：2017年1月12日

このソリューションは、以下の他の回答よりも少し直感的かもしれません。

lmy.df = read.table(text = ' id d gr mm area 15 1 2 3.40 1 15 1 1 4.90 2 15 1 1 4.40 1 15 1 1 5.50 2 21 1 1 4.00 2 21 1 2 3.80 2 22 1 1 4.00 2 23 1 1 2.70 2 23 1 1 4.00 2 23 1 2 3.00 2 24 1 1 3.00 2 24 1 1 2.00 3 24 1 1 4.00 2 24 1 2 2.00 3 ', header = TRUE) head <- aggregate(lmy.df, by=list(lmy.df$id), FUN = function(x) { first = head(x,1) } ) tail <- aggregate(lmy.df, by=list(lmy.df$id), FUN = function(x) { last = tail(x,1) } ) head$order = 'first' tail$order = 'last' my.output <- rbind(head, tail) my.output # Group.1 id d gr mm area order #1 15 15 1 2 3.4 1 first #2 21 21 1 1 4.0 2 first #3 22 22 1 1 4.0 2 first #4 23 23 1 1 2.7 2 first #5 24 24 1 1 3.0 2 first #6 15 15 1 1 5.5 2 last #7 21 21 1 2 3.8 2 last #8 22 22 1 1 4.0 2 last #9 23 23 1 2 3.0 2 last #10 24 24 1 2 2.0 3 last

編集：2016年6月18日

元の回答を投稿してから、lapplyよりもapplyを使用する方がよいことを学びました。これは、すべてのグループの行数が同じ場合、applyが機能しないためです。ここを参照してください：グループごとに行に番号を付けるときのエラー

lmy.df = read.table(text = ' id d gr mm area 15 1 2 3.40 1 15 1 1 4.90 2 15 1 1 4.40 1 15 1 1 5.50 2 21 1 1 4.00 2 21 1 2 3.80 2 22 1 1 4.00 2 23 1 1 2.70 2 23 1 1 4.00 2 23 1 2 3.00 2 24 1 1 3.00 2 24 1 1 2.00 3 24 1 1 4.00 2 24 1 2 2.00 3 ', header = TRUE) lmy.seq <- rle(lmy.df$id)$lengths lmy.df$first <- unlist(lapply(lmy.seq, function(x) seq(1,x))) lmy.df$last <- unlist(lapply(lmy.seq, function(x) seq(x,1,-1))) lmy.df lmy.df2 <- lmy.df[lmy.df$first==1 | lmy.df$last == 1,] lmy.df2 # id d gr mm area first last #1 15 1 2 3.4 1 1 4 #4 15 1 1 5.5 2 4 1 #5 21 1 1 4.0 2 1 2 #6 21 1 2 3.8 2 2 1 #7 22 1 1 4.0 2 1 1 #8 23 1 1 2.7 2 1 3 #10 23 1 2 3.0 2 3 1 #11 24 1 1 3.0 2 1 4 #14 24 1 2 2.0 3 4 1

各グループに2つの行がある例を次に示します。

lmy.df = read.table(text = ' id d gr mm area 15 1 2 3.40 1 15 1 1 4.90 2 21 1 1 4.00 2 21 1 2 3.80 2 22 1 1 4.00 2 22 1 1 6.00 2 23 1 1 2.70 2 23 1 2 3.00 2 24 1 1 3.00 2 24 1 2 2.00 3 ', header = TRUE) lmy.seq <- rle(lmy.df$id)$lengths lmy.df$first <- unlist(lapply(lmy.seq, function(x) seq(1,x))) lmy.df$last <- unlist(lapply(lmy.seq, function(x) seq(x,1,-1))) lmy.df lmy.df2 <- lmy.df[lmy.df$first==1 | lmy.df$last == 1,] lmy.df2 # id d gr mm area first last #1 15 1 2 3.4 1 1 2 #2 15 1 1 4.9 2 2 1 #3 21 1 1 4.0 2 1 2 #4 21 1 2 3.8 2 2 1 #5 22 1 1 4.0 2 1 2 #6 22 1 1 6.0 2 2 1 #7 23 1 1 2.7 2 1 2 #8 23 1 2 3.0 2 2 1 #9 24 1 1 3.0 2 1 2 #10 24 1 2 2.0 3 2 1

元の答え：

my.seq <- data.frame(rle(my.df$id)$lengths) my.df$first <- unlist(apply(my.seq, 1, function(x) seq(1,x))) my.df$last <- unlist(apply(my.seq, 1, function(x) seq(x,1,-1))) my.df2 <- my.df[my.df$first==1 | my.df$last == 1,] my.df2 id d gr mm area first last 1 15 1 2 3.4 1 1 4 4 15 1 1 5.5 2 4 1 5 21 1 1 4.0 2 1 2 6 21 1 2 3.8 2 2 1 7 22 1 1 4.0 2 1 3 9 22 1 2 4.6 2 3 1 10 23 1 1 2.7 2 1 3 12 23 1 2 3.0 2 3 1 13 24 1 1 3.0 2 1 4 16 24 1 2 2.0 3 4 1