Rのランクと順序
r関数rank
とR関数order
の違いを理解できません。それらは同じ出力を生成するようです:
> rank(c(10,30,20,50,40))
[1] 1 3 2 5 4
> order(c(10,30,20,50,40))
[1] 1 3 2 5 4
誰かが私のためにこれにいくらか光を当てることができますか?ありがとう
_> set.seed(1)
> x <- sample(1:50, 30)
> x
[1] 14 19 28 43 10 41 42 29 27 3 9 7 44 15 48 18 25 33 13 34 47 39 49 4 30 46 1 40 20 8
> rank(x)
[1] 9 12 16 25 7 23 24 17 15 2 6 4 26 10 29 11 14 19 8 20 28 21 30 3 18 27 1 22 13 5
> order(x)
[1] 27 10 24 12 30 11 5 19 1 14 16 2 29 17 9 3 8 25 18 20 22 28 6 7 4 13 26 21 15 23
_
rank
は、各値の「ランク」を持つベクトルを返します。最初の位置の数は9番目に低いです。 order
は、初期ベクトルx
を順番に並べるインデックスを返します。
x
の27番目の値が最も低いので、_27
_はorder(x)
の最初の要素です-rank(x)
を見ると、27番目の要素は_1
_。
_> x[order(x)]
[1] 1 3 4 7 8 9 10 13 14 15 18 19 20 25 27 28 29 30 33 34 39 40 41 42 43 44 46 47 48 49
_
この2つの違いについて考えるのは常に混乱し、「order
を使用してrank
に到達するにはどうすればよいか」といつも思っています。
ジャスティンの例から始めましょう:
ランクを使用した順序:
## Setup example to match Justin's example
set.seed(1)
x <- sample(1:50, 30)
## Make a vector to store the sorted x values
xx = integer(length(x))
## i is the index, ir is the ith "rank" value
i = 0
for(ir in rank(x)){
i = i + 1
xx[ir] = x[i]
}
all(xx==x[order(x)])
[1] TRUE
rank
はより複雑であり、必ずしもインデックス(整数)ではありません:
> rank(c(1))
[1] 1
> rank(c(1,1))
[1] 1.5 1.5
> rank(c(1,1,1))
[1] 2 2 2
> rank(c(1,1,1,1))
[1] 2.5 2.5 2.5 2.5
判明したように、これは特別なケースであり、物事を混乱させました。興味がある人のために以下に説明します。
rank
は、昇順リストの各要素の順序を返します
order
は、各要素が昇順で持つインデックスを返します
素人の言語では、order
は値を並べ替えた後の値の実際の場所/位置を示します。例:
a<-c(3,4,2,7,8,5,1,6)
sort(a) [1] 1 2 3 4 5 6 7 8
a
の1
の位置は7です。同様に、a
の2
の位置は3です。
order(a) [1] 7 3 1 2 6 8 4 5
rプロンプトの?order()で指定されているように、orderは元のベクトルを昇順/降順で並べ替える順列を返すだけです。ベクトルがあると仮定します
A<-c(1,4,3,6,7,4);
A.sort<-sort(A);
それから
order(A) == match(A.sort,A);
rank(A) == match(A,A.sort);
その上、注文には次のプロパティがあることがわかります(理論的には検証されていません):
1 order(A)∈(1,length(A))
2 order(order(order(....order(A)....))):if you take the order of A in odds number of times, the results remains the same, so as to even number of times.