heatmap.2
パッケージを使用してヒートマップを作成しようとしています。私のデータにはたくさんのNaN
値が含まれていますが、私がやりたいことは次のとおりです。 NaN
値があるたびに、セルをライトグレー(または他の中間色、おそらく白)として色付けし、他のすべての値(log2式)を標準の緑にするだけです。 /黄色/赤の配色。これが私が使用している私のコードです:
heatmap.2(as.matrix(foo2[rowSums (abs(foo2)) != 0,]),
col = redgreen,
margins = c(12, 22),
trace = "none",
xlab = "Comparison",
lhei = c(2, 8),
scale = c("none"),
symbreaks = min(foo2 = 0, na.rm = TRUE),
na.color = "blue",
cexRow = 0.5,
cexCol = .7,
main = "DE geness",
Colv = F)
これは、NaN
値がない場合はうまく機能しますが、データにNaN
がある場合は、次のようなエラーが発生します。
Error in hclustfun(distfun(x)) :
NA/NaN/Inf in foreign function call (arg 11)
基本的に、データ内のNaN
を無視してもらいたいと思います。これをどう処理するかわかりません。どんな助けでも大歓迎です。
TL; DR:この問題は、委任されたdistfun
が原因である可能性があり、heatmap2
関数自体。デフォルトのdist
関数は、データポイント間の距離を計算しようとしますが、距離の計算でNAが返された場合、クラスタリング関数はそれを処理できません。
長いバージョン:
私は最近OPと同じ問題を経験しましたが、問題が他の人に再現できない理由を理解するためにかなり掘り下げなければなりませんでした。
重要な問題は次のとおりです。heatmap2はデフォルトでhclust
とhclustfun
とdist
をdistfun
パラメータとして渡します。エラーメッセージは、hclustfun
sが気に入らないのはhclust
(この場合はデフォルトでNA
)であることを明確に示しています。
次の情報は次のとおりです。データマトリックスにNA
sが含まれていても、dist
(hclust
に渡される)の結果にはNAが含まれていない可能性があります。 @kdauriaの答えの場合。下記参照:
> library(gplots)
> mat = matrix( rnorm(25), 5, 5)
> mat[c(1,6,8,11,15,20,22,24)] = NaN
>
> heatmap.2( mat,
+ col = colorpanel(100,"red","yellow","green"),
+ margins = c(12, 22),
+ trace = "none",
+ xlab = "Comparison",
+ lhei = c(2, 8),
+ scale = c("none"),
+ symbreaks = min(mat, na.rm=TRUE),
+ na.color="blue",
+ cexRow = 0.5, cexCol = 0.7,
+ main = "DE genes",
+ dendrogram = "row",
+ Colv = FALSE )
> ?dist
> mat
[,1] [,2] [,3] [,4] [,5]
[1,] NaN NaN NaN -1.10103187 -1.4396185
[2,] -0.8821449 1.4891180 0.41956063 -0.06442867 NaN
[3,] -2.5912928 NaN -0.56603029 -0.55177559 -2.0313602
[4,] 0.8348197 0.2199583 0.06318663 1.59697764 NaN
[5,] -0.2632078 -1.2193110 NaN NaN 0.8618543
> dist(mat)
1 2 3 4
2 2.317915
3 1.276559 2.623637
4 6.032933 3.050821 5.283828
5 5.146250 4.392798 5.871684 2.862324
ランダムな値の行列は、目前の問題を回避するため、問題を再現しません。それは私に質問をもたらします:dist
からNAを取得するには何が必要ですか?
私のデータには、理由と思われるいくつかの非常に大きな値がありましたが、NAの行を追加することによってのみ問題を再現することができました。
> mat = matrix(rnorm(49), 7, 7)
> mat[c(3,17,28, 41)] = mat[c(3,17,28, 41)] * 100000
> mat
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] -6.175928e-01 1.68691561 -1.233250e+00 -7.355322e-01 -0.37392178 3.559804e-01 1.7536137
[2,] 6.680429e-01 0.90590237 -1.375424e+00 5.842512e-01 -0.09376548 -3.556098e-01 -1.2926535
[3,] -3.739372e+04 -1.74534887 -2.241643e+05 -2.209226e-01 -0.86769435 -4.590908e-01 1.6306854
[4,] -1.283405e+00 0.20698245 3.635557e-01 3.673208e-01 -0.12339047 1.119922e+00 0.4301094
[5,] -5.430687e-02 -0.75219479 2.609126e+00 -1.340564e-01 0.54016622 2.885021e-01 0.9237946
[6,] -8.395116e-01 0.03675002 2.455545e+00 4.432025e-02 -0.86194910 1.302758e+05 0.6062505
[7,] 1.817036e-01 -1.46137388 -1.853179e+00 -2.177306e+03 2.36763806 -2.273134e+00 1.2440088
> dist(mat)
1 2 3 4 5 6
2 3.726858e+00
3 2.272605e+05 2.272606e+05
4 2.966078e+00 3.537475e+00 2.272620e+05
5 4.787577e+00 5.039154e+00 2.272644e+05 3.016614e+00
6 1.302754e+05 1.302762e+05 2.619559e+05 1.302747e+05 1.302755e+05
7 2.176576e+03 2.177895e+03 2.272705e+05 2.177679e+03 2.177179e+03 1.302963e+05
> mat = rbind(mat[1:4, ], rep(NA,7), mat[5:6, ])
> mat
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] -6.175928e-01 1.68691561 -1.233250e+00 -0.73553223 -0.37392178 3.559804e-01 1.7536137
[2,] 6.680429e-01 0.90590237 -1.375424e+00 0.58425125 -0.09376548 -3.556098e-01 -1.2926535
[3,] -3.739372e+04 -1.74534887 -2.241643e+05 -0.22092261 -0.86769435 -4.590908e-01 1.6306854
[4,] -1.283405e+00 0.20698245 3.635557e-01 0.36732078 -0.12339047 1.119922e+00 0.4301094
[5,] NA NA NA NA NA NA NA
[6,] -5.430687e-02 -0.75219479 2.609126e+00 -0.13405635 0.54016622 2.885021e-01 0.9237946
[7,] -8.395116e-01 0.03675002 2.455545e+00 0.04432025 -0.86194910 1.302758e+05 0.6062505
> dist(mat)
1 2 3 4 5 6
2 3.726858e+00
3 2.272605e+05 2.272606e+05
4 2.966078e+00 3.537475e+00 2.272620e+05
5 NA NA NA NA
6 4.787577e+00 5.039154e+00 2.272644e+05 3.016614e+00 NA
7 1.302754e+05 1.302762e+05 2.619559e+05 1.302747e+05 NA 1.302755e+05
> heatmap.2( mat,
+ col = colorpanel(100,"red","yellow","green"),
+ margins = c(12, 22),
+ trace = "none",
+ xlab = "Comparison",
+ lhei = c(2, 8),
+ scale = c("none"),
+ symbreaks = min(mat, na.rm=TRUE),
+ na.color="blue",
+ cexRow = 0.5, cexCol = 0.7,
+ main = "DE genes",
+ dendrogram = "row",
+ Colv = FALSE )
Error in hclustfun(distfun(x)) :
NA/NaN/Inf in foreign function call (arg 11)
ただし、完全にNAで構成された行がある場合に固有の状況ではないようです。例えば:
> mat
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] NaN NaN NaN NaN NA -7.531027e-01 0.2238252
[2,] 3.210084e-01 -1.55702840 2.777516e-01 0.2176875 1.3310334 -9.621561e-01 NaN
[3,] 1.159837e+05 0.04480172 -1.649482e+04 NaN 2.4748122 8.446133e-01 -0.4240776
[4,] -8.584051e-01 NaN NaN 1.0557713 -1.0855826 -5.638023e-02 -0.3789979
[5,] NA NA -2.539003e-01 -0.4552776 0.3856384 NA NA
[6,] NaN 1.31986556 NaN -1.0393147 -1.9197183 -1.434064e+00 0.6334569
[7,] NaN -0.42180912 NaN -0.8023476 -0.8264077 4.471358e+04 0.5046408
> dist(mat)
1 2 3 4 5 6
2 5.531033e-01
3 3.225471e+00 1.386143e+05
4 1.723619e+00 3.913983e+00 1.534332e+05
5 NA 1.949799e+00 3.085851e+04 3.945524e+00
6 1.486699e+00 6.010961e+00 6.905415e+00 3.743585e+00 4.449179e+00
7 8.365286e+04 5.915178e+04 5.914939e+04 5.915058e+04 2.358664e+00 5.290752e+04
そのため、私はコーディングの専門家ではありませんが、Rでヒートマップを作成する方法を学び、NAデータに対して同じエラーメッセージが表示され続けました。エラーメッセージが表示された理由は、データの最初の列にNA用語があり、Rがそれをまったく気に入らなかったためです。そこで、列を追加して1を入力すると、機能しました。多分誰かがこれが役に立つと思うことを願っています!
カヒナ
Posdefの非常に有益な答えに加えて、実用的な解決策の単なる提案:
Distfunは樹状図の構造を決定するためにのみ使用されるため、dist行列のNAを、NA以外の値の最大値よりも少し高い値に置き換えるだけで済みます。
このために、新しい距離関数(通常のdist関数をラップし、NAを置き換えるもの)が必要です。
dist_no_na <- function(mat) {
edist <- dist(mat)
edist[which(is.na(edist))] <- max(edist, na.rm=TRUE) * 1.1
return(edist)
}
そして、heatmap.2呼び出しでこの関数を利用します。
heatmap.2(mat, ..., dendrogram="row", Colv="NA", na.color="black", distfun=dist_no_na)
プロパティ
もちろん、これは完璧な解決策ではありません。これは、(ユークリッド?)距離を計算できる根拠がないベクトルのペアに数値の距離値を割り当てます。ただし、いくつかの望ましい特性があります。
Heatmap.2関数は機能します:-)
たとえば、NAのみを含む行は、最初にメインブランチから分割されます(これは目前の問題をうまく反映しています)。
マトリックスの他のプロパティによって引き起こされるNA値を置き換える必要がある効果は完全にはわかりません。 posdefは、そのようなNA値が存在する可能性があることを指摘しました。 posdefの例では、同じ列に非NAエントリのペアがない2つの行があります。つまり、ユークリッド距離を決定することはできません。この場合、数値的に計算できるすべての距離よりも大きい距離としてこれを反映することがおそらく適切です。
NA以外の最大値よりもはるかに大きい置換値は選択しません。 (上記のコードで選択した値は10%大きくなります。)これにより、すべてのNA行の分割点から次の分割点(樹状図の関連部分)までの距離が長くなり、関連する可能性があります。樹状図の一部が見えにくい。