web-dev-qa-db-ja.com

欠損値を列平均で置き換える

NA値を列の平均で置き換えるために各列をループする方法がわかりません。次を使用して1つの列を置き換えようとすると、うまくいきます。

Column1[is.na(Column1)] <- round(mean(Column1, na.rm = TRUE))

列をループするためのコードが機能していません。

for(i in 1:ncol(data)){
    data[i][is.na(data[i])] <- round(mean(data[i], na.rm = TRUE))
}

値は置き換えられません。誰かがこれを手伝ってくれますか?

37
Nikita

コードを比較的簡単に修正することで問題を解決できます。

for(i in 1:ncol(data)){
  data[is.na(data[,i]), i] <- mean(data[,i], na.rm = TRUE)
}
54
Thomas

DFが数値列のデータフレームである場合:

library(Zoo)
na.aggregate(DF)

追加:

Rのベースのみを使用して、1つの列に対してそれを行う関数を定義し、すべての列に適用します。

NA2mean <- function(x) replace(x, is.na(x), mean(x, na.rm = TRUE))
replace(DF, TRUE, lapply(DF, NA2mean))

入力を上書きしても構わない場合は、最後の行を次の行に置き換えることができます。

DF[] <- lapply(DF, NA2mean)
45
G. Grothendieck

@akrunのサンプルデータを使用して代替に追加するには、次のようにします。

d1[] <- lapply(d1, function(x) { 
  x[is.na(x)] <- mean(x, na.rm = TRUE)
  x
})
d1
10

また試すことができます:

 cM <- colMeans(d1, na.rm=TRUE)
 indx <- which(is.na(d1), arr.ind=TRUE)
 d1[indx] <- cM[indx[,2]]
 d1  

データ

set.seed(42)
d1 <- as.data.frame(matrix(sample(c(NA,0:5), 5*10, replace=TRUE), ncol=10))
6
akrun

lapplyループの代わりにforを使用できます。

d1[] <- lapply(d1, function(x) ifelse(is.na(x), mean(x, na.rm = TRUE), x))

これは、forループよりも実際には利点がありませんが、非数値列もある方が簡単な場合があります。

d1[sapply(d1, is.numeric)] <- lapply(d1[sapply(d1, is.numeric)], function(x) ifelse(is.na(x), mean(x, na.rm = TRUE), x))

ほぼ同じくらい簡単です。

5
Ista
# Lets say I have a dataframe , df as following -
df <- data.frame(a=c(2,3,4,NA,5,NA),b=c(1,2,3,4,NA,NA))

# create a custom function
fillNAwithMean <- function(x){
    na_index <- which(is.na(x))        
    mean_x <- mean(x, na.rm=T)
    x[na_index] <- mean_x
    return(x)
}

(df <- apply(df,2,fillNAwithMean))
   a   b
2.0 1.0
3.0 2.0
4.0 3.0
3.5 4.0
5.0 2.5
3.5 2.5
3
shekhar

imputeTSパッケージを使用した簡単なソリューションもあります。

library(imputeTS)
na.mean(yourDataFrame)
3
stats0007

@Thomasが指摘した答えと同様に、これはRのifelse()メソッドを使用して行うこともできます。

for(i in 1:ncol(data)){
  data[,i]=ifelse(is.na(data[,i]),
                  ave(data[,i],FUN=function(y) mean(y, na.rm = TRUE)),
                  data[,i])
}

ここで、引数 to ifelse(TEST, YES , NO)は次のとおりです:-

TEST-確認する論理条件

YES-条件がTrueの場合に実行

NO-条件がFalseの場合

ave(x, ..., FUN = mean)は、x []のサブセットの平均を計算するために使用されるRのメソッドです。

1
Aseem Yadav

Zooを使用するだけで、すべてのNA値が列値の平均に単純に置き換えられます。

na.aggregate(data) 
1
pari

tidyr's replace_na を使用するワンライナーは

library(tidyr)
replace_na(mtcars,as.list(colMeans(mtcars,na.rm=T)))
1
Marcus Ritt

dplyrmutate_allまたはmutate_atはここで役立ちます。

library(dplyr)                                                             

set.seed(10)                                                               
df <- data.frame(a = sample(c(NA, 1:3)    , replace = TRUE, 10),           
                 b = sample(c(NA, 101:103), replace = TRUE, 10),                            
                 c = sample(c(NA, 201:203), replace = TRUE, 10))                            

df         

#>     a   b   c
#> 1   2 102 203
#> 2   1 102 202
#> 3   1  NA 203
#> 4   2 102 201
#> 5  NA 101 201
#> 6  NA 101 202
#> 7   1  NA 203
#> 8   1 101  NA
#> 9   2 101 203
#> 10  1 103 201

df %>% mutate_all(~ifelse(is.na(.x), mean(.x, na.rm = TRUE), .x))          

#>        a       b        c
#> 1  2.000 102.000 203.0000
#> 2  1.000 102.000 202.0000
#> 3  1.000 101.625 203.0000
#> 4  2.000 102.000 201.0000
#> 5  1.375 101.000 201.0000
#> 6  1.375 101.000 202.0000
#> 7  1.000 101.625 203.0000
#> 8  1.000 101.000 202.1111
#> 9  2.000 101.000 203.0000
#> 10 1.000 103.000 201.0000

df %>% mutate_at(vars(a, b),~ifelse(is.na(.x), mean(.x, na.rm = TRUE), .x))

#>        a       b   c
#> 1  2.000 102.000 203
#> 2  1.000 102.000 202
#> 3  1.000 101.625 203
#> 4  2.000 102.000 201
#> 5  1.375 101.000 201
#> 6  1.375 101.000 202
#> 7  1.000 101.625 203
#> 8  1.000 101.000  NA
#> 9  2.000 101.000 203
#> 10 1.000 103.000 201
0
zack