web-dev-qa-db-ja.com

Juliaの不十分なRの例を高速化する

ジュリアの例でパフォーマンスをRと比較する 特に複雑なようですhttps://github.com/JuliaLang/Julia/blob/master/test/perf/perf.R

以下の2つのアルゴリズムの中で最も高速なパフォーマンスは何ですか(できれば、Rのようにするために変更したものの説明を添えてください)。

## mandel

mandel = function(z) {
    c = z
    maxiter = 80
    for (n in 1:maxiter) {
        if (Mod(z) > 2) return(n-1)
        z = z^2+c
    }
    return(maxiter)
}

mandelperf = function() {
    re = seq(-2,0.5,.1)
    im = seq(-1,1,.1)
    M = matrix(0.0,nrow=length(re),ncol=length(im))
    count = 1
    for (r in re) {
        for (i in im) {
            M[count] = mandel(complex(real=r,imag=i))
            count = count + 1
        }
    }
    return(M)
}

assert(sum(mandelperf()) == 14791)

## quicksort ##

qsort_kernel = function(a, lo, hi) {
    i = lo
    j = hi
    while (i < hi) {
        pivot = a[floor((lo+hi)/2)]
        while (i <= j) {
            while (a[i] < pivot) i = i + 1
            while (a[j] > pivot) j = j - 1
            if (i <= j) {
                t = a[i]
                a[i] = a[j]
                a[j] = t
            }
            i = i + 1;
            j = j - 1;
        }
        if (lo < j) qsort_kernel(a, lo, j)
        lo = i
        j = hi
    }
    return(a)
}

qsort = function(a) {
  return(qsort_kernel(a, 1, length(a)))
}

sortperf = function(n) {
    v = runif(n)
    return(qsort(v))
}

sortperf(5000)
75
Ari B. Friedman

うーん、マンデルブロの例では、行列Mはその次元が転置されています

_M = matrix(0.0,nrow=length(im), ncol=length(re))
_

これは、内部ループでcountをインクリメントすることで満たされるためです(imの連続する値)。私の実装では、_mandelperf.1_に複素数のベクトルを作成し、インデックスとサブセットを使用してすべての要素を操作して、ベクトルのどの要素がまだ条件を満たしていないかを追跡しますMod(z) <= 2

_mandel.1 = function(z, maxiter=80L) {
    c <- z
    result <- integer(length(z))
    i <- seq_along(z)
    n <- 0L
    while (n < maxiter && length(z)) {
        j <- Mod(z) <= 2
        if (!all(j)) {
            result[i[!j]] <- n
            i <- i[j]
            z <- z[j]
            c <- c[j]
        }
        z <- z^2 + c
        n <- n + 1L
    }
    result[i] <- maxiter
    result
}

mandelperf.1 = function() {
    re = seq(-2,0.5,.1)
    im = seq(-1,1,.1)
    mandel.1(complex(real=rep(re, each=length(im)),
                     imaginary=im))
}
_

13倍の速度向上の場合(元の値が整数値ではなく数値を返すため、結果は同じですが同一ではありません)。

_> library(rbenchmark)
> benchmark(mandelperf(), mandelperf.1(),
+           columns=c("test", "elapsed", "relative"),
+           order="relative")
            test elapsed relative
2 mandelperf.1()   0.412  1.00000
1   mandelperf()   5.705 13.84709

> all.equal(sum(mandelperf()), sum(mandelperf.1()))
[1] TRUE
_

クイックソートの例は実際にはソートされません

_> set.seed(123L); qsort(sample(5))
[1] 2 4 1 3 5
_

しかし、私の主なスピードアップは、ピボットの周りのパーティションをベクトル化することでした

_qsort_kernel.1 = function(a) {
    if (length(a) < 2L)
        return(a)
    pivot <- a[floor(length(a) / 2)]
    c(qsort_kernel.1(a[a < pivot]), a[a == pivot], qsort_kernel.1(a[a > pivot]))
}

qsort.1 = function(a) {
    qsort_kernel.1(a)
}

sortperf.1 = function(n) {
    v = runif(n)
    return(qsort.1(v))
}
_

7倍のスピードアップ(未補正のオリジナルと比較して)

_> benchmark(sortperf(5000), sortperf.1(5000),
+           columns=c("test", "elapsed", "relative"),
+           order="relative")
              test elapsed relative
2 sortperf.1(5000)    6.60 1.000000
1   sortperf(5000)   47.73 7.231818
_

元の比較では、ジュリアはマンデルではRの約30倍、クイックソートでは500倍高速であるため、上記の実装はまだそれほど競争力がありません。

42
Martin Morgan

この質問のキーワードは「アルゴリズム」です。

以下の2つのアルゴリズムの中で最も高速なパフォーマンスは何ですか(できれば、Rに似せるために変更したものの説明を添えてください)。

「これらをどれだけ速く作ることができますかアルゴリズム Rで?」ここで問題となっているアルゴリズムは、標準のマンデルブロ複合ループ反復アルゴリズムと標準の再帰クイックソートカーネルです。

これらのベンチマークで提起された問題への回答を計算するより高速な方法は確かにありますが、同じアルゴリズムを使用していません。再帰を避け、反復を避け、Rが得意でない他のことを避けることができます。ただし、同じアルゴリズムを比較する必要はありません。

マンデルブロ集合をRやソート番号で計算したい場合は、そうです、これはコードの記述方法ではありません。可能な限りベクトル化するか、すべての作業を事前定義されたCカーネルにプッシュするか、カスタムC拡張を記述してそこで計算を実行します。どちらにしても、結論は、Rだけでは実際に優れたパフォーマンスを得るには十分高速ではないということです。優れたパフォーマンスを得るには、Cがほとんどの作業を行う必要があります。

それがまさにこれらのベンチマークのポイントです。ジュリアでは、優れたパフォーマンスを得るためにCコードに依存する必要はありません。純粋なジュリアでやりたいことを書くだけで、優れたパフォーマンスが得られます。反復スカラーループアルゴリズムが、やりたいことを行う最も自然な方法である場合は、それを実行します。再帰が問題を解決する最も自然な方法である場合、それも問題ありません。不自然なベクトル化やカスタムC拡張の作成など、パフォーマンスをCに依存することは決してありません。もちろん、あなたはcan線形代数の場合が多いため、自然なときにベクトル化されたコードを記述します。 can必要な処理を行うライブラリがすでにある場合は、Cを呼び出します。しかし、そうする必要はありません。

言語間で同じアルゴリズムを可能な限り公平に比較​​したいと思います。

  1. 誰かがRでより高速なバージョンを持っている場合同じアルゴリズムを使用、パッチを提出してください!
  2. Juliaサイト のRベンチマークはすでにバイトコンパイルされていると思いますが、私がそれを間違っており、比較がRに対して不公平である場合は、私に知らせてください。修正して更新しますベンチマーク。
97
StefanKarpinski