web-dev-qa-db-ja.com

C99 'restrict'キーワードの現実的な使用法は?

私はいくつかのドキュメントと質問/回答を閲覧していて、言及されているのを見ました。私は簡単な説明を読みましたが、それは基本的にプログラマが他の場所を指すためにポインタを使用しないという約束であると述べています。

これを実際に使用する価値がある現実的なケースを誰でも提供できますか?

171
user90052

restrictは、ポインタが基になるオブジェクトにアクセスする唯一のものであることを示します。ポインターのエイリアシングの可能性を排除し、コンパイラーによる最適化を改善します。

たとえば、メモリ内の数値のベクトルを乗算できる特殊な命令を備えたマシンがあり、次のコードがあるとします。

void MultiplyArrays(int* dest, int* src1, int* src2, int n)
{
    for(int i = 0; i < n; i++)
    {
        dest[i] = src1[i]*src2[i];
    }
}

コンパイラは、destsrc1、およびsrc2オーバーラップ、つまり、開始から終了まで一度に1つの乗算を行う必要があることを意味します。 restrictを使用することにより、コンパイラーはベクター命令を使用してこのコードを自由に最適化できます。

ウィキペディアにはrestrictのエントリがあり、別の例 here があります。

167
Michael

Wikipediaの例 は、veryの照明です。

1つのAssembly命令を保存できるを明確に示しています。

制限なし:

_void f(int *a, int *b, int *x) {
  *a += *x;
  *b += *x;
}
_

擬似アセンブリ:

_load R1 ← *x    ; Load the value of x pointer
load R2 ← *a    ; Load the value of a pointer
add R2 += R1    ; Perform Addition
set R2 → *a     ; Update the value of a pointer
; Similarly for b, note that x is loaded twice,
; because a may be equal to x.
load R1 ← *x
load R2 ← *b
add R2 += R1
set R2 → *b
_

制限付き:

_void fr(int *restrict a, int *restrict b, int *restrict x);
_

擬似アセンブリ:

_load R1 ← *x
load R2 ← *a
add R2 += R1
set R2 → *a
; Note that x is not reloaded,
; because the compiler knows it is unchanged
; load R1 ← *x
load R2 ← *b
add R2 += R1
set R2 → *b
_

GCCは本当にそれをしますか?

GCC 4.8 Linux x86-64:

_gcc -g -std=c99 -O0 -c main.c
objdump -S main.o
_

_-O0_の場合、それらは同じです。

_-O3_の場合:

_void f(int *a, int *b, int *x) {
    *a += *x;
   0:   8b 02                   mov    (%rdx),%eax
   2:   01 07                   add    %eax,(%rdi)
    *b += *x;
   4:   8b 02                   mov    (%rdx),%eax
   6:   01 06                   add    %eax,(%rsi)  

void fr(int *restrict a, int *restrict b, int *restrict x) {
    *a += *x;
  10:   8b 02                   mov    (%rdx),%eax
  12:   01 07                   add    %eax,(%rdi)
    *b += *x;
  14:   01 06                   add    %eax,(%rsi) 
_

未開始の場合、 呼び出し規約 は次のとおりです。

  • rdi =最初のパラメーター
  • rsi = 2番目のパラメーター
  • rdx = 3番目のパラメーター

GCCの出力は、Wikiの記事よりも明確でした:4命令対3命令。

配列

これまでのところ、単一の命令を節約できますが、ポインターがループオーバーされる配列を表す場合、一般的なユースケースでは、 supercat で述べたように、命令の束を保存できます。

例について考えてみましょう:

_void f(char *restrict p1, char *restrict p2) {
    for (int i = 0; i < 50; i++) {
        p1[i] = 4;
        p2[i] = 9;
    }
}
_

restrictのおかげで、スマートコンパイラ(または人間)は、それを次のように最適化できます。

_memset(p1, 4, 50);
memset(p2, 9, 50);
_

適切なlibc実装(glibcなど)でアセンブリが最適化される可能性があるため、潜在的にはるかに効率的です: std :: memcpy()またはstd :: copy()を使用する方がよいパフォーマンス?

GCCは本当にそれをしますか?

GCC 5.2.1.Linux x86-64 Ubuntu 15.10:

_gcc -g -std=c99 -O0 -c main.c
objdump -dr main.o
_

_-O0_の場合、両方とも同じです。

_-O3_の場合:

  • 制限付き:

    _3f0:   48 85 d2                test   %rdx,%rdx
    3f3:   74 33                   je     428 <fr+0x38>
    3f5:   55                      Push   %rbp
    3f6:   53                      Push   %rbx
    3f7:   48 89 f5                mov    %rsi,%rbp
    3fa:   be 04 00 00 00          mov    $0x4,%esi
    3ff:   48 89 d3                mov    %rdx,%rbx
    402:   48 83 ec 08             sub    $0x8,%rsp
    406:   e8 00 00 00 00          callq  40b <fr+0x1b>
                            407: R_X86_64_PC32      memset-0x4
    40b:   48 83 c4 08             add    $0x8,%rsp
    40f:   48 89 da                mov    %rbx,%rdx
    412:   48 89 ef                mov    %rbp,%rdi
    415:   5b                      pop    %rbx
    416:   5d                      pop    %rbp
    417:   be 09 00 00 00          mov    $0x9,%esi
    41c:   e9 00 00 00 00          jmpq   421 <fr+0x31>
                            41d: R_X86_64_PC32      memset-0x4
    421:   0f 1f 80 00 00 00 00    nopl   0x0(%rax)
    428:   f3 c3                   repz retq
    _

    予想どおり2つのmemset呼び出し。

  • 制限なし:stdlib呼び出しはなく、16反復幅 ループ展開 で、ここでは再現しません:-)

私はそれらをベンチマークする忍耐を持っていませんでしたが、私は制限バージョンがより速くなると信じています。

C99

完全を期すために標準を見てみましょう。

restrictは、2つのポインターが重複するメモリー領域を指すことはできないことを示します。最も一般的な使用法は、関数の引数です。

これにより、関数の呼び出し方法が制限されますが、より多くのコンパイル時の最適化が可能になります。

呼び出し元がrestrictコントラクトに従わない場合、未定義の動作。

C99 N1256 draft 6.7.3/7 "Type qualifiers"は次のように述べています。

制限修飾子(レジスタストレージクラスなど)の使用目的は、最適化を促進することであり、適合プログラムを構成するすべての前処理変換ユニットから修飾子のすべてのインスタンスを削除しても、その意味は変わりません(つまり、観察可能な動作)。

6.7.3.1「制限の正式な定義」には、詳細な説明があります。

厳密なエイリアスルール

restrictキーワードは、互換性のある型のポインター(2つの_int*_など)にのみ影響します。厳密なエイリアスルールでは、互換性のない型のエイリアスはデフォルトでは未定義の動作であるため、コンパイラーはそれが発生しないと仮定して最適化できるためです離れて。

参照: 厳密なエイリアスルールとは何ですか?

参照