Data.frame内のすべてまたは一部のNA（欠損値）を含む行を削除します。

Question

このデータフレームの次の行を削除します。

a） すべての列にNAsを含める。 以下は私のデータフレームの例です。

 gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA NA 2 ENSG00000199674 0 2 2 2 2 3 ENSG00000221622 0 NA NA NA NA 4 ENSG00000207604 0 NA NA 1 2 5 ENSG00000207431 0 NA NA NA NA 6 ENSG00000221312 0 1 2 3 2

基本的には、次のようなデータフレームを取得したいです。

 gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 6 ENSG00000221312 0 1 2 3 2

b） 一部の列にのみNAを含める したがって、次のような結果も得られます。

 gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 4 ENSG00000207604 0 NA NA 1 2 6 ENSG00000221312 0 1 2 3 2

Joris Meys · Accepted Answer

complete.cases も確認してください。

> final[complete.cases(final), ] gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 6 ENSG00000221312 0 1 2 3 2

na.omitは、すべてのNAを単に削除するのに適しています。 complete.casesは、データフレームの特定の列だけを含めることによって部分的な選択を可能にします。

> final[complete.cases(final[ , 5:6]),] gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 4 ENSG00000207604 0 NA NA 1 2 6 ENSG00000221312 0 1 2 3 2

あなたの解決策はうまくいきません。もしあなたがis.naを使うことを主張するなら、あなたは次のようなことをしなければなりません：

> final[rowSums(is.na(final[ , 5:6])) == 0, ] gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 4 ENSG00000207604 0 NA NA 1 2 6 ENSG00000221312 0 1 2 3 2

しかしcomplete.casesを使用することは、はるかに明確で速くなります。

Roman Luštrik · Answer

na.omit(your.data.frame)を試してください。 2番目の質問については、（わかりやすくするために）別の質問として投稿してみてください。

donshikin · Answer

行にNAが含まれているかどうかを確認するには、次のようにします。

row.has.na <- apply(final, 1, function(x){any(is.na(x))})

これは、行にNAがあるかどうかを示す値を持つ論理ベクトルを返します。これを使用して、いくつの行を削除する必要があるかを確認できます。

sum(row.has.na)

そして最終的にそれらを落とす

final.filtered <- final[!row.has.na,]

特定の部分のNAを含む行をフィルタリングする場合は、少し複雑になります（たとえば、 'final [、5：6]'を 'apply'に指定できます）。一般的に、Joris Meysのソリューションはよりエレガントなようです。

lukeA · Answer

tidyrに新しい機能が追加されました drop_na ：

library(tidyr) df %>% drop_na() # gene hsap mmul mmus rnor cfam # 2 ENSG00000199674 0 2 2 2 2 # 6 ENSG00000221312 0 1 2 3 2 df %>% drop_na(rnor, cfam) # gene hsap mmul mmus rnor cfam # 2 ENSG00000199674 0 2 2 2 2 # 4 ENSG00000207604 0 NA NA 1 2 # 6 ENSG00000221312 0 1 2 3 2

getting-there · Answer

行が無効と見なされる方法をさらに制御したい場合は、もう1つの選択肢があります。

final <- final[!(is.na(final$rnor)) | !(is.na(rawdata$cfam)),]

上記を使用して、これ：

 gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA 2 2 ENSG00000199674 0 2 2 2 2 3 ENSG00000221622 0 NA NA 2 NA 4 ENSG00000207604 0 NA NA 1 2 5 ENSG00000207431 0 NA NA NA NA 6 ENSG00000221312 0 1 2 3 2

になります：

 gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA 2 2 ENSG00000199674 0 2 2 2 2 3 ENSG00000221622 0 NA NA 2 NA 4 ENSG00000207604 0 NA NA 1 2 6 ENSG00000221312 0 1 2 3 2

... rnorとcfamの両方に対してNAが含まれる唯一の行であるため、行5のみが削除されます。その後、ブール論理を特定の要件に合うように変更できます。

Pierre Lafortune · Answer

各行に有効なNAの数を制御したい場合は、この機能を試してください。多くの調査データセットでは、余りにも多くの空白の質問の回答が結果を台無しにする可能性があります。そのため、それらは一定のしきい値の後に削除されます。この関数はあなたがそれが削除される前に行が持つことができるNAの数を選択することを可能にします：

delete.na <- function(DF, n=0) { DF[rowSums(is.na(DF)) <= n,] }

デフォルトでは、すべてのNAが削除されます。

delete.na(final) gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 6 ENSG00000221312 0 1 2 3 2

または、許可されているNAの最大数を指定します。

delete.na(final, 2) gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 4 ENSG00000207604 0 NA NA 1 2 6 ENSG00000221312 0 1 2 3 2

C8H10N4O2 · Answer

パフォーマンスが優先される場合は、オプションのパラメータ`data.table`を付けて`cols=`および`na.omit()`を使用してください。

na.omit.data.table は私のベンチマークでは最速です（下記参照）。すべての列でも選択した列でも（OP question part 2）。

`data.table`を使いたくない場合は、`complete.cases()`を使います。

Vanillaのdata.frameでは、 complete.cases は na.omit() または dplyr::drop_na() よりも高速です。 na.omit.data.frameはcols=をサポートしていないことに注意してください。

ベンチマーク結果

これは、20個の数値変数からなる100万個の観測値からなる独立した5％の見逃し確率で、すべての観測値または選択された観測値を削除するbase（blue）、dplyr（pink）、およびdata.table（yellow）メソッドの比較です。パート2の4つの変数のサブセット。

結果は、特定のデータセットの長さ、幅、および希薄さによって異なります。

Y軸上の対数目盛に注意してください。

ベンチマークスクリプト

#------- Adjust these assumptions for your own use case ------------ row_size <- 1e6L col_size <- 20 # not including ID column p_missing <- 0.05 # likelihood of missing observation (except ID col) col_subset <- 18:21 # second part of question: filter on select columns #------- System info for benchmark ---------------------------------- R.version # R version 3.4.3 (2017-11-30), platform = x86_64-w64-mingw32 library(data.table); packageVersion('data.table') # 1.10.4.3 library(dplyr); packageVersion('dplyr') # 0.7.4 library(tidyr); packageVersion('tidyr') # 0.8.0 library(microbenchmark) #------- Example dataset using above assumptions -------------------- fakeData <- function(m, n, p){ set.seed(123) m <- matrix(runif(m*n), nrow=m, ncol=n) m[m<p] <- NA return(m) } df <- cbind( data.frame(id = paste0('ID',seq(row_size)), stringsAsFactors = FALSE), data.frame(fakeData(row_size, col_size, p_missing) ) ) dt <- data.table(df) par(las=3, mfcol=c(1,2), mar=c(22,4,1,1)+0.1) boxplot( microbenchmark( df[complete.cases(df), ], na.omit(df), df %>% drop_na, dt[complete.cases(dt), ], na.omit(dt) ), xlab='', main = 'Performance: Drop any NA observation', col=c(rep('lightblue',2),'salmon',rep('beige',2)) ) boxplot( microbenchmark( df[complete.cases(df[,col_subset]), ], #na.omit(df), # col subset not supported in na.omit.data.frame df %>% drop_na(col_subset), dt[complete.cases(dt[,col_subset,with=FALSE]), ], na.omit(dt, cols=col_subset) # see ?na.omit.data.table ), xlab='', main = 'Performance: Drop NA obs. in select cols', col=c('lightblue','salmon',rep('beige',2)) )

Raminsu · Answer

Dplyrパッケージを使用して、次のようにNAをフィルタリングできます。

dplyr::filter(df, !is.na(columnname))

Leo · Answer

これは少なくとも1つの非NA値を持つ行を返します。

final[rowSums(is.na(final))<length(final),]

これは少なくとも2つの非NA値を持つ行を返します。

final[rowSums(is.na(final))<(length(final)-1),]

LegitMe · Answer

あなたの最初の質問のために、私はすべてのNAを取り除くのに慣れているコードを持っています。それを簡単にするために@Gregorをありがとう。

final[!(rowSums(is.na(final))),]

2番目の質問では、コードは前のソリューションからの単なる変更です。

final[as.logical((rowSums(is.na(final))-5)),]

-5はデータ内の列数です。 rowSumsの合計は5になり、減算後にゼロになるため、これにより、すべてのNAを持つ行が削除されます。今回はas.logicalが必要です。

Ramya Ural · Answer

これにはサブセット関数を使用することもできます。

finalData<-subset(data,!(is.na(data["mmul"]) | is.na(data["rnor"])))

これにより、mmulとrnorの両方にNAがない行のみが得られます。

Jerry T · Answer

私はシンセサイザーです：）。ここで私は答えを一つの機能にまとめました：

#' keep rows that have a certain number (range) of NAs anywhere/somewhere and delete others #' @param df a data frame #' @param col restrict to the columns where you would like to search for NA; eg, 3, c(3), 2:5, "place", c("place","age") #' \cr default is NULL, search for all columns #' @param n integer or vector, 0, c(3,5), number/range of NAs allowed. #' \cr If a number, the exact number of NAs kept #' \cr Range includes both ends 3<=n<=5 #' \cr Range could be -Inf, Inf #' @return returns a new df with rows that have NA(s) removed #' @export ez.na.keep = function(df, col=NULL, n=0){ if (!is.null(col)) { # R converts a single row/col to a vector if the parameter col has only one col # see https://radfordneal.wordpress.com/2008/08/20/design-flaws-in-r-2-%E2%80%94-dropped-dimensions/#comments df.temp = df[,col,drop=FALSE] } else { df.temp = df } if (length(n)==1){ if (n==0) { # simply call complete.cases which might be faster result = df[complete.cases(df.temp),] } else { # credit: http://stackoverflow.com/a/30461945/2292993 log <- apply(df.temp, 2, is.na) logindex <- apply(log, 1, function(x) sum(x) == n) result = df[logindex, ] } } if (length(n)==2){ min = n[1]; max = n[2] log <- apply(df.temp, 2, is.na) logindex <- apply(log, 1, function(x) {sum(x) >= min && sum(x) <= max}) result = df[logindex, ] } return(result) }

Prradep · Answer

あなたのデータフレームとしてdatを仮定すると、期待される出力は以下を使って達成することができます。

1 .rowSums

> dat[!rowSums((is.na(dat))),] gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 6 ENSG00000221312 0 1 2 3 2

2 .lapply

> dat[!Reduce('|',lapply(dat,is.na)),] gene hsap mmul mmus rnor cfam 2 ENSG00000199674 0 2 2 2 2 6 ENSG00000221312 0 1 2 3 2

sapy · Answer

delete.dirt <- function(DF, Dart=c('NA')) { dirty_rows <- apply(DF, 1, function(r) !any(r %in% Dart)) DF <- DF[dirty_rows, ] } mydata <- delete.dirt(mydata)

上記の関数は、任意の列に 'NA'があるデータフレームからすべての行を削除し、結果のデータを返します。 NAや?のように複数の値をチェックしたい場合は、関数paramのDart=c('NA')をDart=c('NA', '?')に変更してください。

Joni Hoppen · Answer

私の推測では、これはこのようにしてよりエレガントに解決される可能性があります。

 m <- matrix(1:25, ncol = 5) m[c(1, 6, 13, 25)] <- NA df <- data.frame(m) library(dplyr) df %>% filter_all(any_vars(is.na(.))) #> X1 X2 X3 X4 X5 #> 1 NA NA 11 16 21 #> 2 3 8 NA 18 23 #> 3 5 10 15 20 NA

bschneidr · Answer

一般的で、かなり読みやすいコードを生成するアプローチの1つは、dplyrパッケージのfilter関数とその派生形（filter_all、filter_at、filter_if）を使用することです。

library(dplyr) vars_to_check <- c("rnor", "cfam") # Filter a specific list of columns to keep only non-missing entries df %>% filter_at(.vars = vars(one_of(vars_to_check)), ~ !is.na(.)) # Filter all the columns to exclude NA df %>% filter_all(~ !is.na(.)) # Filter only numeric columns df %>% filter_if(is.numeric, ~ !is.na(.))

Isabelle · Answer

この場合、na.omitが行います。これを行ったら、欠損値プロットを使用してデータセットを視覚化できます。

Data.frame内のすべてまたは一部のNA（欠損値）を含む行を削除します。

パフォーマンスが優先される場合は、オプションのパラメータdata.tableを付けてcols=およびna.omit()を使用してください。

data.tableを使いたくない場合は、complete.cases()を使います。

ベンチマーク結果

ベンチマークスクリプト

パフォーマンスが優先される場合は、オプションのパラメータ`data.table`を付けて`cols=`および`na.omit()`を使用してください。

`data.table`を使いたくない場合は、`complete.cases()`を使います。