105000行と30列のデータセットがあります。数値に割り当てるカテゴリ変数があります。 Excelでは、おそらくVLOOKUP
とfillで何かをするでしょう。
R
で同じことを行うにはどうすればよいですか?
基本的に、私が持っているのはHouseType
変数であり、HouseTypeNo
を計算する必要があります。サンプルデータを次に示します。
HouseType HouseTypeNo
Semi 1
Single 2
Row 3
Single 2
Apartment 4
Apartment 4
Row 3
あなたの質問を正しく理解したら、ExcelのVLOOKUP
に相当するR
を使用して記入する4つの方法を次に示します。
# load sample data from Q
hous <- read.table(header = TRUE,
stringsAsFactors = FALSE,
text="HouseType HouseTypeNo
Semi 1
Single 2
Row 3
Single 2
Apartment 4
Apartment 4
Row 3")
# create a toy large table with a 'HouseType' column
# but no 'HouseTypeNo' column (yet)
largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 1000, replace = TRUE)), stringsAsFactors = FALSE)
# create a lookup table to get the numbers to fill
# the large table
lookup <- unique(hous)
HouseType HouseTypeNo
1 Semi 1
2 Single 2
3 Row 3
5 Apartment 4
HouseTypeNo
テーブルの値を使用して、largetable
のlookup
を埋める4つの方法を次に示します。
最初にmerge
をベースに:
# 1. using base
base1 <- (merge(lookup, largetable, by = 'HouseType'))
ベースに名前付きベクトルを使用する2番目の方法:
# 2. using base and a named vector
housenames <- as.numeric(1:length(unique(hous$HouseType)))
names(housenames) <- unique(hous$HouseType)
base2 <- data.frame(HouseType = largetable$HouseType,
HouseTypeNo = (housenames[largetable$HouseType]))
3番目に、plyr
パッケージを使用します。
# 3. using the plyr package
library(plyr)
plyr1 <- join(largetable, lookup, by = "HouseType")
4番目に、sqldf
パッケージを使用します
# 4. using the sqldf package
library(sqldf)
sqldf1 <- sqldf("SELECT largetable.HouseType, lookup.HouseTypeNo
FROM largetable
INNER JOIN lookup
ON largetable.HouseType = lookup.HouseType")
largetable
の一部のハウスタイプがlookup
に存在しない可能性がある場合、左結合が使用されます。
sqldf("select * from largetable left join lookup using (HouseType)")
他のソリューションへの対応する変更も必要です。
それはあなたがやりたかったことですか?好きな方法を教えてください。コメントを追加します。
match()
も使用できると思います:
largetable$HouseTypeNo <- with(lookup,
HouseTypeNo[match(largetable$HouseType,
HouseType)])
lookup
の順序をスクランブルしても、これは機能します。
また、qdapTools::lookup
または短縮二項演算子%l%
を使用することも好きです。 Excel vlookupと同じように機能しますが、列番号ではなく名前引数を受け入れます
## Replicate Ben's data:
hous <- structure(list(HouseType = c("Semi", "Single", "Row", "Single",
"Apartment", "Apartment", "Row"), HouseTypeNo = c(1L, 2L, 3L,
2L, 4L, 4L, 3L)), .Names = c("HouseType", "HouseTypeNo"),
class = "data.frame", row.names = c(NA, -7L))
largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType),
1000, replace = TRUE)), stringsAsFactors = FALSE)
## It's this simple:
library(qdapTools)
largetable[, 1] %l% hous
解決策#2 @Benの答えは、他のより一般的な例では再現できません。 HouseType
内の一意のhouses
が昇順で表示されるため、この例では正しいルックアップが行われます。これを試して:
hous <- read.table(header = TRUE, stringsAsFactors = FALSE, text="HouseType HouseTypeNo
Semi 1
ECIIsHome 17
Single 2
Row 3
Single 2
Apartment 4
Apartment 4
Row 3")
largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 1000, replace = TRUE)), stringsAsFactors = FALSE)
lookup <- unique(hous)
Bens Solution#2が提供するもの
housenames <- as.numeric(1:length(unique(hous$HouseType)))
names(housenames) <- unique(hous$HouseType)
base2 <- data.frame(HouseType = largetable$HouseType,
HouseTypeNo = (housenames[largetable$HouseType]))
いつ
unique(base2$HouseTypeNo[ base2$HouseType=="ECIIsHome" ])
[1] 2
ルックアップテーブルの正解が17の場合
それを行う正しい方法は
hous <- read.table(header = TRUE, stringsAsFactors = FALSE, text="HouseType HouseTypeNo
Semi 1
ECIIsHome 17
Single 2
Row 3
Single 2
Apartment 4
Apartment 4
Row 3")
largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 1000, replace = TRUE)), stringsAsFactors = FALSE)
housenames <- tapply(hous$HouseTypeNo, hous$HouseType, unique)
base2 <- data.frame(HouseType = largetable$HouseType,
HouseTypeNo = (housenames[largetable$HouseType]))
ルックアップが正しく実行されるようになりました
unique(base2$HouseTypeNo[ base2$HouseType=="ECIIsHome" ])
ECIIsHome
17
Bensの回答を編集しようとしましたが、理解できない理由で拒否されます。
ポスターは、exact=FALSE
の場合の値の検索については尋ねませんでしたが、これを自分自身の参照およびおそらく他の参照の回答として追加しています。
カテゴリ値を検索する場合は、他の回答を使用してください。
Excelのvlookup
を使用すると、4番目の引数(1)match=TRUE
を使用して、数値の近似一致を行うこともできます。 match=TRUE
は、温度計で値を調べるようなものだと思います。デフォルト値はFALSEであり、カテゴリー値に最適です。
近似的に(ルックアップを実行)したい場合、RにはfindInterval
と呼ばれる関数があり、(名前が示すように)連続した数値を含む間隔/ビンを検索します。
ただし、いくつかの値に対してfindInterval
を使用するとします。ループを作成するか、適用関数を使用できます。ただし、DIYのベクトル化アプローチを採用する方が効率的であることがわかりました。
Xとyでインデックス付けされた値のグリッドがあるとしましょう:
grid <- list(x = c(-87.727, -87.723, -87.719, -87.715, -87.711),
y = c(41.836, 41.839, 41.843, 41.847, 41.851),
z = (matrix(data = c(-3.428, -3.722, -3.061, -2.554, -2.362,
-3.034, -3.925, -3.639, -3.357, -3.283,
-0.152, -1.688, -2.765, -3.084, -2.742,
1.973, 1.193, -0.354, -1.682, -1.803,
0.998, 2.863, 3.224, 1.541, -0.044),
nrow = 5, ncol = 5)))
xとyで検索したい値がいくつかあります:
df <- data.frame(x = c(-87.723, -87.712, -87.726, -87.719, -87.722, -87.722),
y = c(41.84, 41.842, 41.844, 41.849, 41.838, 41.842),
id = c("a", "b", "c", "d", "e", "f")
視覚化された例を次に示します。
contour(grid)
points(df$x, df$y, pch=df$id, col="blue", cex=1.2)
このタイプの式でx間隔とy間隔を見つけることができます。
xrng <- range(grid$x)
xbins <- length(grid$x) -1
yrng <- range(grid$y)
ybins <- length(grid$y) -1
df$ix <- trunc( (df$x - min(xrng)) / diff(xrng) * (xbins)) + 1
df$iy <- trunc( (df$y - min(yrng)) / diff(yrng) * (ybins)) + 1
さらに一歩進んで、次のようにgrid
のz値に対して(単純な)補間を実行できます。
df$z <- with(df, (grid$z[cbind(ix, iy)] +
grid$z[cbind(ix + 1, iy)] +
grid$z[cbind(ix, iy + 1)] +
grid$z[cbind(ix + 1, iy + 1)]) / 4)
これらはあなたにこれらの値を与えます:
contour(grid, xlim = range(c(grid$x, df$x)), ylim = range(c(grid$y, df$y)))
points(df$x, df$y, pch=df$id, col="blue", cex=1.2)
text(df$x + .001, df$y, lab=round(df$z, 2), col="blue", cex=1)
df
# x y id ix iy z
# 1 -87.723 41.840 a 2 2 -3.00425
# 2 -87.712 41.842 b 4 2 -3.11650
# 3 -87.726 41.844 c 1 3 0.33150
# 4 -87.719 41.849 d 3 4 0.68225
# 6 -87.722 41.838 e 2 1 -3.58675
# 7 -87.722 41.842 f 2 2 -3.00425
Ixおよびiyは、findInterval
を使用したループでも検出された可能性があることに注意してください。 2行目の例を次に示します
findInterval(df$x[2], grid$x)
# 4
findInterval(df$y[2], grid$y)
# 2
df[2]
のix
とiy
に一致するもの
脚注:(1)vlookupの4番目の引数は以前は「match」と呼ばれていましたが、リボンを導入した後、「[range_lookup]」に名前が変更されました。
で始まります:
houses <- read.table(text="Semi 1
Single 2
Row 3
Single 2
Apartment 4
Apartment 4
Row 3",col.names=c("HouseType","HouseTypeNo"))
...使用できます
as.numeric(factor(houses$HouseType))
...各家の種類に一意の番号を付けるため。ここで結果を見ることができます:
> houses2 <- data.frame(houses,as.numeric(factor(houses$HouseType)))
> houses2
HouseType HouseTypeNo as.numeric.factor.houses.HouseType..
1 Semi 1 3
2 Single 2 4
3 Row 3 2
4 Single 2 4
5 Apartment 4 1
6 Apartment 4 1
7 Row 3 2
...そのため、行に異なる数字が表示されます(因子はアルファベット順になっているため)が、パターンは同じです。
(編集:この回答の残りのテキストは実際には冗長です。確認するために私が思いつき、最初にデータフレームに読み込まれたときにread.table()
がすでにhouse $ HouseTypeを要因にしたことが判明しました) 。
ただし、HouseTypeをファクターに変換するだけでよい場合があります。これにより、HouseTypeNoと同じメリットが得られますが、家のタイプには番号が付けられるのではなく名前が付けられるため、解釈が容易になります。
> houses3 <- houses
> houses3$HouseType <- factor(houses3$HouseType)
> houses3
HouseType HouseTypeNo
1 Semi 1
2 Single 2
3 Row 3
4 Single 2
5 Apartment 4
6 Apartment 4
7 Row 3
> levels(houses3$HouseType)
[1] "Apartment" "Row" "Semi" "Single"
Plyrパッケージのmapvalues()
を使用できます。
初期データ:
dat <- data.frame(HouseType = c("Semi", "Single", "Row", "Single", "Apartment", "Apartment", "Row"))
> dat
HouseType
1 Semi
2 Single
3 Row
4 Single
5 Apartment
6 Apartment
7 Row
ルックアップ/横断歩道テーブル:
lookup <- data.frame(type_text = c("Semi", "Single", "Row", "Apartment"), type_num = c(1, 2, 3, 4))
> lookup
type_text type_num
1 Semi 1
2 Single 2
3 Row 3
4 Apartment 4
新しい変数を作成:
dat$house_type_num <- plyr::mapvalues(dat$HouseType, from = lookup$type_text, to = lookup$type_num)
または、単純な置換の場合は、長いルックアップテーブルの作成をスキップして、これを1ステップで直接実行できます。
dat$house_type_num <- plyr::mapvalues(dat$HouseType,
from = c("Semi", "Single", "Row", "Apartment"),
to = c(1, 2, 3, 4))
結果:
> dat
HouseType house_type_num
1 Semi 1
2 Single 2
3 Row 3
4 Single 2
5 Apartment 4
6 Apartment 4
7 Row 3
merge
を使用することは、all.x = T
を使用しない場合に主キー制約がルックアップテーブルで適用されない場合にデータを複製(乗算)する可能性があるか、レコード数を減らす可能性があるため、Excelでのルックアップとは異なります。
あなたがそれで問題を起こさないようにし、安全に検索するために、2つの戦略を提案します。
最初の1つは、ルックアップキーの重複行の数をチェックすることです。
safeLookup <- function(data, lookup, by, select = setdiff(colnames(lookup), by)) {
# Merges data to lookup making sure that the number of rows does not change.
stopifnot(sum(duplicated(lookup[, by])) == 0)
res <- merge(data, lookup[, c(by, select)], by = by, all.x = T)
return (res)
}
これにより、ルックアップデータセットを使用する前に重複排除する必要があります。
baseSafe <- safeLookup(largetable, house.ids, by = "HouseType")
# Error: sum(duplicated(lookup[, by])) == 0 is not TRUE
baseSafe<- safeLookup(largetable, unique(house.ids), by = "HouseType")
head(baseSafe)
# HouseType HouseTypeNo
# 1 Apartment 4
# 2 Apartment 4
# ...
2番目のオプションは、ルックアップデータセットから最初に一致する値を取得して、Excelの動作を再現することです。
firstLookup <- function(data, lookup, by, select = setdiff(colnames(lookup), by)) {
# Merges data to lookup using first row per unique combination in by.
unique.lookup <- lookup[!duplicated(lookup[, by]), ]
res <- merge(data, unique.lookup[, c(by, select)], by = by, all.x = T)
return (res)
}
baseFirst <- firstLookup(largetable, house.ids, by = "HouseType")
これらの関数は、複数の列を追加するため、lookup
とは少し異なります。