WindowsとLinux(x86-64)の両方でプログラムを実行しています。同じコンパイラー(Intel Parallel Studio XE 2017)と同じオプションでコンパイルされており、WindowsバージョンはLinuxバージョンの3倍高速です。犯人は std :: erf の呼び出しであり、どちらの場合もIntel数学ライブラリで解決されます(デフォルトでは、Windowsでは動的に、Linuxでは静的にリンクされますが、Linuxで動的リンクを使用すると、同じパフォーマンス)。
問題を再現する簡単なプログラムを次に示します。
#include <cmath>
#include <cstdio>
int main() {
int n = 100000000;
float sum = 1.0f;
for (int k = 0; k < n; k++) {
sum += std::erf(sum);
}
std::printf("%7.2f\n", sum);
}
VTuneを使用してこのプログラムをプロファイルすると、WindowsバージョンとLinuxバージョンでアセンブリが少し異なることがわかります。これがWindowsの呼び出しサイト(ループ)です
Block 3:
"vmovaps xmm0, xmm6"
call 0x1400023e0 <erff>
Block 4:
inc ebx
"vaddss xmm6, xmm6, xmm0"
"cmp ebx, 0x5f5e100"
jl 0x14000103f <Block 3>
そして、Windowsで呼び出されるerf関数の始まり
Block 1:
Push rbp
"sub rsp, 0x40"
"lea rbp, ptr [rsp+0x20]"
"lea rcx, ptr [rip-0xa6c81]"
"movd edx, xmm0"
"movups xmmword ptr [rbp+0x10], xmm6"
"movss dword ptr [rbp+0x30], xmm0"
"mov eax, edx"
"and edx, 0x7fffffff"
"and eax, 0x80000000"
"add eax, 0x3f800000"
"mov dword ptr [rbp], eax"
"movss xmm6, dword ptr [rbp]"
"cmp edx, 0x7f800000"
...
Linuxでは、コードが少し異なります。呼び出しサイトは次のとおりです。
Block 3
"vmovaps %xmm1, %xmm0"
"vmovssl %xmm1, (%rsp)"
callq 0x400bc0 <erff>
Block 4
inc %r12d
"vmovssl (%rsp), %xmm1"
"vaddss %xmm0, %xmm1, %xmm1" <-------- hotspot here
"cmp $0x5f5e100, %r12d"
jl 0x400b6b <Block 3>
呼び出された関数(erf)の始まりは次のとおりです。
"movd %xmm0, %edx"
"movssl %xmm0, -0x10(%rsp)" <-------- hotspot here
"mov %edx, %eax"
"and $0x7fffffff, %edx"
"and $0x80000000, %eax"
"add $0x3f800000, %eax"
"movl %eax, -0x18(%rsp)"
"movssl -0x18(%rsp), %xmm0"
"cmp $0x7f800000, %edx"
jnl 0x400dac <Block 8>
...
Linuxで時間が失われる2つのポイントを示しました。
2つのコードの違いと、Linuxバージョンが3倍遅い理由を説明できるほどアセンブリを理解している人はいますか?
どちらの場合も、WindowsおよびGNU/Linuxのそれぞれの呼び出し規約に従って、引数と結果はレジスタで渡されますonly。
GNU/Linuxバリアントでは、xmm1
は、合計の累積に使用されます。コールクローバーレジスタ(呼び出し元が保存したもの)であるため、各呼び出しで呼び出し元のスタックフレームに格納(および復元)されます。
Windowsバリアントでは、xmm6
は、合計の累積に使用されます。このレジスタは、Windowsの呼び出し規約で呼び出し先が保存されます(ただし、GNU/Linuxのものではありません)。
したがって、要約すると、GNU/Linuxバージョンは両方を保存/復元しますxmm0
(呼び出し先[1]内)およびxmm1
(呼び出し側)、Windowsバージョンでは保存/復元のみxmm6
(呼び出し先)。
[1] std::errf
理由を理解する。
Visual Studio 2015のWin 7 64ビットモードを使用すると、erf()で使用されているパスの一部に対して次のコードが見つかります(すべてのパスが表示されているわけではありません)。各パスには、メモリから読み取られる最大8(他のパスの場合はそれ以上)の定数が含まれるため、レジスタを保存するための単一のストア/ロードでは、LinuxとWindowsの間で3倍の速度差は生じません。保存/復元に関しては、この例ではxmm6とxmm7を保存および復元します。時間に関しては、元の投稿のプログラムはIntel 3770K(3.5ghz cpu)(VS2015/Win 7 64ビット)で約0.86秒かかります。更新-プログラム10 ^ 8ループ(ループあたり約3ナノ秒)の場合、xmmレジスタの保存と復元のオーバーヘッドは約0.03秒であると後で判断しました。
000007FEEE25CF90 mov rax,rsp
000007FEEE25CF93 movss dword ptr [rax+8],xmm0
000007FEEE25CF98 sub rsp,48h
000007FEEE25CF9C movaps xmmword ptr [rax-18h],xmm6
000007FEEE25CFA0 lea rcx,[rax+8]
000007FEEE25CFA4 movaps xmmword ptr [rax-28h],xmm7
000007FEEE25CFA8 movaps xmm6,xmm0
000007FEEE25CFAB call 000007FEEE266370
000007FEEE25CFB0 movsx ecx,ax
000007FEEE25CFB3 test ecx,ecx
000007FEEE25CFB5 je 000007FEEE25D0AF
000007FEEE25CFBB sub ecx,1
000007FEEE25CFBE je 000007FEEE25D08F
000007FEEE25CFC4 cmp ecx,1
000007FEEE25CFC7 je 000007FEEE25D0AF
000007FEEE25CFCD xorps xmm7,xmm7
000007FEEE25CFD0 movaps xmm2,xmm6
000007FEEE25CFD3 comiss xmm7,xmm6
000007FEEE25CFD6 jbe 000007FEEE25CFDF
000007FEEE25CFD8 xorps xmm2,xmmword ptr [7FEEE2991E0h]
000007FEEE25CFDF movss xmm0,dword ptr [7FEEE298E50h]
000007FEEE25CFE7 comiss xmm0,xmm2
000007FEEE25CFEA jbe 000007FEEE25D053
000007FEEE25CFEC movaps xmm2,xmm6
000007FEEE25CFEF mulss xmm2,xmm6
000007FEEE25CFF3 movaps xmm0,xmm2
000007FEEE25CFF6 movaps xmm1,xmm2
000007FEEE25CFF9 mulss xmm0,dword ptr [7FEEE298B34h]
000007FEEE25D001 mulss xmm1,dword ptr [7FEEE298B5Ch]
000007FEEE25D009 addss xmm0,dword ptr [7FEEE298B8Ch]
000007FEEE25D011 addss xmm1,dword ptr [7FEEE298B9Ch]
000007FEEE25D019 mulss xmm0,xmm2
000007FEEE25D01D mulss xmm1,xmm2
000007FEEE25D021 addss xmm0,dword ptr [7FEEE298BB8h]
000007FEEE25D029 addss xmm1,dword ptr [7FEEE298C88h]
000007FEEE25D031 mulss xmm0,xmm2
000007FEEE25D035 mulss xmm1,xmm2
000007FEEE25D039 addss xmm0,dword ptr [7FEEE298DC8h]
000007FEEE25D041 addss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D049 divss xmm0,xmm1
000007FEEE25D04D mulss xmm0,xmm6
000007FEEE25D051 jmp 000007FEEE25D0B2
000007FEEE25D053 movss xmm1,dword ptr [7FEEE299028h]
000007FEEE25D05B comiss xmm1,xmm2
000007FEEE25D05E jbe 000007FEEE25D076
000007FEEE25D060 movaps xmm0,xmm2
000007FEEE25D063 call 000007FEEE25CF04
000007FEEE25D068 movss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D070 subss xmm1,xmm0
000007FEEE25D074 jmp 000007FEEE25D07E
000007FEEE25D076 movss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D07E comiss xmm7,xmm6
000007FEEE25D081 jbe 000007FEEE25D08A
000007FEEE25D083 xorps xmm1,xmmword ptr [7FEEE2991E0h]
000007FEEE25D08A movaps xmm0,xmm1
000007FEEE25D08D jmp 000007FEEE25D0B2
000007FEEE25D08F mov eax,8000h
000007FEEE25D094 test Word ptr [rsp+52h],ax
000007FEEE25D099 je 000007FEEE25D0A5
000007FEEE25D09B movss xmm0,dword ptr [7FEEE2990DCh]
000007FEEE25D0A3 jmp 000007FEEE25D0B2
000007FEEE25D0A5 movss xmm0,dword ptr [7FEEE298D8Ch]
000007FEEE25D0AD jmp 000007FEEE25D0B2
000007FEEE25D0AF movaps xmm0,xmm6
000007FEEE25D0B2 movaps xmm6,xmmword ptr [rsp+30h]
000007FEEE25D0B7 movaps xmm7,xmmword ptr [rsp+20h]
000007FEEE25D0BC add rsp,48h
000007FEEE25D0C0 ret