web-dev-qa-db-ja.com

異なるデータフレームの複数の列を一致させ、結果として他の列を取得する

2つのビッグデータフレーム、1つ(df1)はこの構造を持っています

   chr    init
1  12  25289552
2   3 180418785
3   3 180434779

その他(df2)これがあります

    V1    V2     V3
10  1     69094 medium
11  1     69094 medium
12  12 25289552 high
13  1     69095 medium
14  3 180418785 medium
15  3 180434779 low

私がやろうとしていることは、列を追加することですV3/df2df1、突然変異の情報を取得する

   chr    init  Mut
1  12  25289552 high
2   3 180418785 medium
3   3 180434779 low

私は両方をRにロードしてから、matchを使用してforループを実行しようとしていますが、機能しません。これを行うための特別な方法を知っていますか?私はawkまたは類似のものを使用して行うこともできます

12
user976991

mergeを使用

df1 <- read.table(text='  chr    init
1  12  25289552
2   3 180418785
3   3 180434779', header=TRUE)


df2 <- read.table(text='    V1    V2     V3
10  1     69094 medium
11  1     69094 medium
12  12 25289552 high
13  1     69095 medium
14  3 180418785 medium
15  3 180434779 low', header=TRUE)


merge(df1, df2, by.x='init', by.y='V2') # this works!
       init chr V1     V3
1  25289552  12 12   high
2 180418785   3  3 medium
3 180434779   3  3    low

希望どおりの出力を表示する方法で取得するには

output <- merge(df1, df2, by.x='init', by.y='V2')[, c(2,1,4)]
colnames(output)[3] <- 'Mut' 
output
  chr      init    Mut
1  12  25289552   high
2   3 180418785 medium
3   3 180434779    low
14
Jilber Urbina
df1 <- read.table(textConnection("   chr    init
 1  12  25289552
 2   3 180418785
 3   3 180434779"), header=T)

df2 <- read.table(textConnection("    V1    V2     V3
 10  1     69094 medium
 11  1     69094 medium
 12  12 25289552 high
 13  1     69095 medium
 14  3 180418785 medium
 15  3 180434779 low"), header=T)

# You have to select the values of df2$V3 such as their corresponding V2 
# are equal to the values of df1$init
df1$Mut <- df2$V3[ df2$V2 %in% df1$init]

df1
  chr      init    Mut
1  12  25289552   high
2   3 180418785 medium
3   3 180434779    low
2
plannapus

@ user976991コメントが私のために働いた。

同じアイデアですが、2つの列で一致する必要があります。

私のドメインコンテキストは、複数のエントリ(場合によっては価格エントリ)を持つ製品データベースです。古いupdate_numsを削除し、product_idで最新のもののみを保持します。

raw_data <- data.table( product_id = sample(10:13, 20, TRUE), update_num = sample(1:3, 20, TRUE), stuff = rep(1, 20, sep = ''))
max_update_nums <- raw_data[ , max(update_num), by = product_id]
distinct(merge(dt, max_update_nums, by.x = c("product_id", "update_num"), by.y = c("product_id", "V1")))
0
Eric Rohlfs

する

df3 <- merge( df1, df2, by.x = "init", by.y = "V2" )
df3 <- df3[-3]
colnames( df3 )[3] <- "Mut"

あなたが欲しいものをあなたに与えますか?

0
vaettchen