SSE / AVXでFMA(Fused Multiply-Add)命令を使用する方法
GCCのFMA3:有効にする方法
L1キャッシュでHaswellのピーク帯域幅を取得:62%のみを取得
AVX2:512個のfloat配列のドット積を計算しています