行名によるマージまたは結合

Question

以下の例では、2つのデータセット（ZおよびA）があります。これらのセットをILMN番号でマージまたは結合したいと思います。一致するものがない場合は、NAを入力します。

z <- matrix(c(0,0,1,1,0,0,1,1,0,0,0,0,1,0,1,1,0,1,1,1,1,0,0,0,"RND1","WDR", "PLAC8","TYBSA","GRA","TAF"), nrow=6, dimnames=list(c("ILMN_1651838","ILMN_1652371","ILMN_1652464","ILMN_1652952","ILMN_1653026","ILMN_1653103"),c("A","B","C","D","symbol"))) t<-matrix(c("GO:0002009", 8, 342, 1, 0.07, 0.679, 0, 0, 1, 0, "GO:0030334", 6, 343, 1, 0.07, 0.065, 0, 0, 1, 0, "GO:0015674", 7, 350, 1, 0.07, 0.065, 1, 0, 0, 0), nrow=10, dimnames= list(c("GO.ID","LEVEL","Annotated","Significant","Expected","resultFisher","ILMN_1652464","ILMN_1651838","ILMN_1711311","ILMN_1653026")))

結果は次のようになります。

 [,1] [,2] [,3] [,4] GO.ID "GO:0002009" "GO:0030334" "GO:0015674" NA LEVEL "8" "6" "7" NA Annotated "342" "343" "350" NA Significant "1" "1" "1" NA Expected "0.07" "0.07" "0.07" NA resultFisher "0.679" "0.065" "0.065" NA ILMN_1652464 "0" "0" "1" PLAC8 ILMN_1651838 "0" "0" "0" RND1 ILMN_1711311 "1" "1" "0" NA ILMN_1653026 "0" "0" "0" GRA

Andrie · Accepted Answer

matchを使用して目的のベクトルを返し、次にcbindを使用して行列に返します

cbind(t, z[, "symbol"][match(rownames(t), rownames(z))]) [,1] [,2] [,3] [,4] GO.ID "GO:0002009" "GO:0030334" "GO:0015674" NA LEVEL "8" "6" "7" NA Annotated "342" "343" "350" NA Significant "1" "1" "1" NA Expected "0.07" "0.07" "0.07" NA resultFisher "0.679" "0.065" "0.065" NA ILMN_1652464 "0" "0" "1" "PLAC8" ILMN_1651838 "0" "0" "0" "RND1" ILMN_1711311 "1" "1" "0" NA ILMN_1653026 "0" "0" "0" "GRA"

PS。警告 tは、行列の転置に使用されるベースR関数です。 tという変数を作成すると、ダウンストリームコードで混乱を招く可能性があります。

Joris Meys · Answer

Mergeを使用し、tベクトルをttに名前変更します（AndrieのPSを参照）。

merge(tt,z,by="row.names",all.x=TRUE)[,-(5:8)]

マトリックスの代わりにデータフレームを使用する場合、これは非常に簡単になります。

z <- as.data.frame(z) tt <- as.data.frame(tt) merge(tt,z["symbol"],by="row.names",all.x=TRUE)

Nick Sabbe · Answer

完璧ではないが近い：

newcol<-sapply(rownames(t), function(rn){z[match(rn, rownames(z)), 5]}) cbind(data.frame(t), newcol)

Adam Lee Perelman · Answer

-Andrieの答えを汎用関数にラップすることができます

mbind<-function(...){ Reduce( function(x,y){cbind(x,y[match(row.names(x),row.names(y)),])}, list(...) ) }

ここでは、行名をキーとして複数のフレームをバインドできます

Wojciech Sobala · Answer

cbind.fill <- function(x, y){ xrn <- rownames(x) yrn <- rownames(y) rn <- union(xrn, yrn) xcn <- colnames(x) ycn <- colnames(y) if(is.null(xrn) | is.null(yrn) | is.null(xcn) | is.null(ycn)) stop("NULL rownames or colnames") z <- matrix(NA, nrow=length(rn), ncol=length(xcn)+length(ycn)) rownames(z) <- rn colnames(z) <- c(xcn, ycn) idx <- match(rn, xrn) z[!is.na(idx), 1:length(xcn)] <- x[na.omit(idx),] idy <- match(rn, yrn) z[!is.na(idy), length(xcn)+(1:length(ycn))] <- y[na.omit(idy),] return(z) }