dplyrは、グループ内の非NA値をカウントします

Question

これが私の例です

mydf<-data.frame('col_1'=c('A','A','B','B'), 'col_2'=c(100,NA, 90,30))

col_1でグループ化し、col_2の非NA要素をカウントしたい

私はdplyrでそれをしたいと思います。

SOを検索した後に試したものを次に示します。

mydf %>% group_by(col_1) %>% summarise_each(funs(!is.na(col_2))) mydf %>% group_by(col_1) %>% mutate(non_na_count = length(col_2, na.rm=TRUE)) mydf %>% group_by(col_1) %>% mutate(non_na_count = count(col_2, na.rm=TRUE))

何も機能しませんでした。助言がありますか？

Richard Telford · Accepted Answer

これを使用できます

mydf %>% group_by(col_1) %>% summarise(non_na_count = sum(!is.na(col_2))) # A tibble: 2 x 2 col_1 non_na_count <fctr> <int> 1 A 1 2 B 2

akrun · Answer

'col_2'のNA要素をfilterしてから、 'col_1'のcountを実行できます

mydf %>% filter(!is.na(col_2)) %>% count(col_1) # A tibble: 2 x 2 # col_1 n # <fctr> <int> #1 A 1 #2 B 2

またはdata.tableを使用して

library(data.table) setDT(mydf)[, .(non_na_count = sum(!is.na(col_2))), col_1]

またはbase Rのaggregateを使用して

aggregate(cbind(col_2 = !is.na(col_2))~col_1, mydf, sum) # col_1 col_2 #1 A 1 #2 B 2

またはtableを使用して

table(mydf$col_1[!is.na(mydf$col_2)])

Anya Sti · Answer

library(knitr) library(dplyr) mydf <- data.frame("col_1" = c("A", "A", "B", "B"), "col_2" = c(100, NA, 90, 30)) mydf %>% group_by(col_1) %>% select_if(function(x) any(is.na(x))) %>% summarise_all(funs(sum(is.na(.)))) -> NA_mydf kable(NA_mydf)