CでのSHA256パフォーマンスの最適化

Question

値の大きなデータベースを頻繁にハッシュする必要があります。したがって、SHA-2ハッシャーの高速実装が必要です。現在、SHA256を使用しています。

私が現在使用しているsha256_transformアルゴリズムは次のとおりです： http://bradconte.com/sha256_c （以下のコード）

コードのプロファイルを作成しましたが、このスニペットはハッシュごとの計算時間のちょうど96％を占めているため、この関数は私の目標にとって重要です。

data[]という名前の64バイト長のバイナリ文字列で動作し、結果をctx->stateに出力します。

この関数のより高速なバージョンをお願いします。わずかな変更でも速度に悪影響を与える可能性があることに注意してください。

#define uchar unsigned char #define uint unsigned int #define ROTLEFT(a,b) (((a) << (b)) | ((a) >> (32-(b)))) #define ROTRIGHT(a,b) (((a) >> (b)) | ((a) << (32-(b)))) #define CH(x,y,z) (((x) & (y)) ^ (~(x) & (z))) #define MAJ(x,y,z) (((x) & (y)) ^ ((x) & (z)) ^ ((y) & (z))) #define EP0(x) (ROTRIGHT(x,2) ^ ROTRIGHT(x,13) ^ ROTRIGHT(x,22)) #define EP1(x) (ROTRIGHT(x,6) ^ ROTRIGHT(x,11) ^ ROTRIGHT(x,25)) #define SIG0(x) (ROTRIGHT(x,7) ^ ROTRIGHT(x,18) ^ ((x) >> 3)) #define SIG1(x) (ROTRIGHT(x,17) ^ ROTRIGHT(x,19) ^ ((x) >> 10)) void sha256_transform(SHA256_CTX *ctx, uchar data[]) { uint a,b,c,d,e,f,g,h,i,j,t1,t2,m[64]; a = ctx->state[0]; b = ctx->state[1]; c = ctx->state[2]; d = ctx->state[3]; e = ctx->state[4]; f = ctx->state[5]; g = ctx->state[6]; h = ctx->state[7]; for (i=0,j=0; i < 16; i++, j += 4) m[i] = (data[j] << 24) | (data[j+1] << 16) | (data[j+2] << 8) | (data[j+3]); for ( ; i < 64; i++) m[i] = SIG1(m[i-2]) + m[i-7] + SIG0(m[i-15]) + m[i-16]; for (i = 0; i < 64; ++i) { t1 = h + EP1(e) + CH(e,f,g) + k[i] + m[i]; t2 = EP0(a) + MAJ(a,b,c); h = g; g = f; f = e; e = d + t1; d = c; c = b; b = a; a = t1 + t2; } ctx->state[0] += a; ctx->state[1] += b; ctx->state[2] += c; ctx->state[3] += d; ctx->state[4] += e; ctx->state[5] += f; ctx->state[6] += g; ctx->state[7] += h; }

TheCodeArtist · Accepted Answer

この SHA256 の実装をチェックアウト/プロファイルすることをお勧めします。

cgminer（人気のあるビットコインマイニングソフトウェア）で使用されており、特にパフォーマンスを念頭に置いて書かれています。 SSE2を使用した4ウェイSIMD実装が含まれます。これは、質問で述べたbradcontesha256_transformアルゴリズムと同じアプローチに従います。コードが長すぎてここで再現できません。

また、ライセンスはかなり寛容であり、元の作者が認定されている限り、再利用/配布が可能です。

jww · Answer

CでのSHA256パフォーマンスの最適化.。

ゴールドモントのマイクロアーキテクチャがリリースされたので、IntelのSHA拡張機能が含まれています。CPU命令を使用して、圧縮機能で5倍から6倍のスピードアップを得ることができます。たとえば暗号ライブラリ用に提案されたコードは次のことを目撃しました（テストは Celeron J3455 で発生しました、 1.5 GHzで動作しますが、2.3 GHzでバーストします）：

C++の実装

 $ ./botan speed --msec=3000 SHA-1 SHA-224 SHA-256 SHA-160 [base] hash 274.826 MiB/sec (824.480 MiB in 3000.009 ms) SHA-224 [base] hash 92.349 MiB/sec (277.051 MiB in 3000.027 ms) SHA-256 [base] hash 92.364 MiB/sec (277.094 MiB in 3000.027 ms)

Intel SHA拡張機能

 $ ./botan speed --msec=3000 SHA-1 SHA-224 SHA-256 SHA-160 [base] hash 1195.907 MiB/sec (3587.723 MiB in 3000.000 ms) SHA-224 [base] hash 535.740 MiB/sec (1607.219 MiB in 3000.000 ms) SHA-256 [base] hash 535.970 MiB/sec (1607.914 MiB in 3000.005 ms)

これは、Intel SHA組み込み関数を使用した拡張機能を使用したSHA256圧縮関数のコードです。これは、Sean Gulleyのブログ Intel®SHA Extensions 、および mitls | hacl-star | Experimental の彼のサンプルコード。

以下のcompress関数は、64バイトの完全なブロックのみを処理します。初期状態を設定し、最後のブロックを埋める必要があります。サンプルコードでカバーされているようです。

#include <immintrin.h> ... void compress(uint32_t state[8], const uint8_t input[], size_t blocks) { __m128i STATE0, STATE1; __m128i MSG, TMP, MASK; __m128i TMSG0, TMSG1, TMSG2, TMSG3; __m128i ABEF_SAVE, CDGH_SAVE; // Load initial values TMP = _mm_loadu_si128((__m128i*) &state[0]); STATE1 = _mm_loadu_si128((__m128i*) &state[4]); MASK = _mm_set_epi64x(0x0c0d0e0f08090a0bULL, 0x0405060700010203ULL); TMP = _mm_shuffle_epi32(TMP, 0xB1); // CDAB STATE1 = _mm_shuffle_epi32(STATE1, 0x1B); // EFGH STATE0 = _mm_alignr_epi8(TMP, STATE1, 8); // ABEF STATE1 = _mm_blend_epi16(STATE1, TMP, 0xF0); // CDGH while (blocks) { // Save current hash ABEF_SAVE = STATE0; CDGH_SAVE = STATE1; // Rounds 0-3 MSG = _mm_loadu_si128((const __m128i*) (input+0)); TMSG0 = _mm_shuffle_epi8(MSG, MASK); MSG = _mm_add_epi32(TMSG0, _mm_set_epi64x(0xE9B5DBA5B5C0FBCFULL, 0x71374491428A2F98ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); // Rounds 4-7 TMSG1 = _mm_loadu_si128((const __m128i*) (input+16)); TMSG1 = _mm_shuffle_epi8(TMSG1, MASK); MSG = _mm_add_epi32(TMSG1, _mm_set_epi64x(0xAB1C5ED5923F82A4ULL, 0x59F111F13956C25BULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG0 = _mm_sha256msg1_epu32(TMSG0, TMSG1); // Rounds 8-11 TMSG2 = _mm_loadu_si128((const __m128i*) (input+32)); TMSG2 = _mm_shuffle_epi8(TMSG2, MASK); MSG = _mm_add_epi32(TMSG2, _mm_set_epi64x(0x550C7DC3243185BEULL, 0x12835B01D807AA98ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG1 = _mm_sha256msg1_epu32(TMSG1, TMSG2); // Rounds 12-15 TMSG3 = _mm_loadu_si128((const __m128i*) (input+48)); TMSG3 = _mm_shuffle_epi8(TMSG3, MASK); MSG = _mm_add_epi32(TMSG3, _mm_set_epi64x(0xC19BF1749BDC06A7ULL, 0x80DEB1FE72BE5D74ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG3, TMSG2, 4); TMSG0 = _mm_add_epi32(TMSG0, TMP); TMSG0 = _mm_sha256msg2_epu32(TMSG0, TMSG3); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG2 = _mm_sha256msg1_epu32(TMSG2, TMSG3); // Rounds 16-19 MSG = _mm_add_epi32(TMSG0, _mm_set_epi64x(0x240CA1CC0FC19DC6ULL, 0xEFBE4786E49B69C1ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG0, TMSG3, 4); TMSG1 = _mm_add_epi32(TMSG1, TMP); TMSG1 = _mm_sha256msg2_epu32(TMSG1, TMSG0); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG3 = _mm_sha256msg1_epu32(TMSG3, TMSG0); // Rounds 20-23 MSG = _mm_add_epi32(TMSG1, _mm_set_epi64x(0x76F988DA5CB0A9DCULL, 0x4A7484AA2DE92C6FULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG1, TMSG0, 4); TMSG2 = _mm_add_epi32(TMSG2, TMP); TMSG2 = _mm_sha256msg2_epu32(TMSG2, TMSG1); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG0 = _mm_sha256msg1_epu32(TMSG0, TMSG1); // Rounds 24-27 MSG = _mm_add_epi32(TMSG2, _mm_set_epi64x(0xBF597FC7B00327C8ULL, 0xA831C66D983E5152ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG2, TMSG1, 4); TMSG3 = _mm_add_epi32(TMSG3, TMP); TMSG3 = _mm_sha256msg2_epu32(TMSG3, TMSG2); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG1 = _mm_sha256msg1_epu32(TMSG1, TMSG2); // Rounds 28-31 MSG = _mm_add_epi32(TMSG3, _mm_set_epi64x(0x1429296706CA6351ULL, 0xD5A79147C6E00BF3ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG3, TMSG2, 4); TMSG0 = _mm_add_epi32(TMSG0, TMP); TMSG0 = _mm_sha256msg2_epu32(TMSG0, TMSG3); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG2 = _mm_sha256msg1_epu32(TMSG2, TMSG3); // Rounds 32-35 MSG = _mm_add_epi32(TMSG0, _mm_set_epi64x(0x53380D134D2C6DFCULL, 0x2E1B213827B70A85ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG0, TMSG3, 4); TMSG1 = _mm_add_epi32(TMSG1, TMP); TMSG1 = _mm_sha256msg2_epu32(TMSG1, TMSG0); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG3 = _mm_sha256msg1_epu32(TMSG3, TMSG0); // Rounds 36-39 MSG = _mm_add_epi32(TMSG1, _mm_set_epi64x(0x92722C8581C2C92EULL, 0x766A0ABB650A7354ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG1, TMSG0, 4); TMSG2 = _mm_add_epi32(TMSG2, TMP); TMSG2 = _mm_sha256msg2_epu32(TMSG2, TMSG1); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG0 = _mm_sha256msg1_epu32(TMSG0, TMSG1); // Rounds 40-43 MSG = _mm_add_epi32(TMSG2, _mm_set_epi64x(0xC76C51A3C24B8B70ULL, 0xA81A664BA2BFE8A1ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG2, TMSG1, 4); TMSG3 = _mm_add_epi32(TMSG3, TMP); TMSG3 = _mm_sha256msg2_epu32(TMSG3, TMSG2); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG1 = _mm_sha256msg1_epu32(TMSG1, TMSG2); // Rounds 44-47 MSG = _mm_add_epi32(TMSG3, _mm_set_epi64x(0x106AA070F40E3585ULL, 0xD6990624D192E819ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG3, TMSG2, 4); TMSG0 = _mm_add_epi32(TMSG0, TMP); TMSG0 = _mm_sha256msg2_epu32(TMSG0, TMSG3); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG2 = _mm_sha256msg1_epu32(TMSG2, TMSG3); // Rounds 48-51 MSG = _mm_add_epi32(TMSG0, _mm_set_epi64x(0x34B0BCB52748774CULL, 0x1E376C0819A4C116ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG0, TMSG3, 4); TMSG1 = _mm_add_epi32(TMSG1, TMP); TMSG1 = _mm_sha256msg2_epu32(TMSG1, TMSG0); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); TMSG3 = _mm_sha256msg1_epu32(TMSG3, TMSG0); // Rounds 52-55 MSG = _mm_add_epi32(TMSG1, _mm_set_epi64x(0x682E6FF35B9CCA4FULL, 0x4ED8AA4A391C0CB3ULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG1, TMSG0, 4); TMSG2 = _mm_add_epi32(TMSG2, TMP); TMSG2 = _mm_sha256msg2_epu32(TMSG2, TMSG1); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); // Rounds 56-59 MSG = _mm_add_epi32(TMSG2, _mm_set_epi64x(0x8CC7020884C87814ULL, 0x78A5636F748F82EEULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); TMP = _mm_alignr_epi8(TMSG2, TMSG1, 4); TMSG3 = _mm_add_epi32(TMSG3, TMP); TMSG3 = _mm_sha256msg2_epu32(TMSG3, TMSG2); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); // Rounds 60-63 MSG = _mm_add_epi32(TMSG3, _mm_set_epi64x(0xC67178F2BEF9A3F7ULL, 0xA4506CEB90BEFFFAULL)); STATE1 = _mm_sha256rnds2_epu32(STATE1, STATE0, MSG); MSG = _mm_shuffle_epi32(MSG, 0x0E); STATE0 = _mm_sha256rnds2_epu32(STATE0, STATE1, MSG); // Add values back to state STATE0 = _mm_add_epi32(STATE0, ABEF_SAVE); STATE1 = _mm_add_epi32(STATE1, CDGH_SAVE); input += 64; blocks--; } TMP = _mm_shuffle_epi32(STATE0, 0x1B); // FEBA STATE1 = _mm_shuffle_epi32(STATE1, 0xB1); // DCHG STATE0 = _mm_blend_epi16(TMP, STATE1, 0xF0); // DCBA STATE1 = _mm_alignr_epi8(STATE1, TMP, 8); // ABEF // Save state _mm_storeu_si128((__m128i*) &state[0], STATE0); _mm_storeu_si128((__m128i*) &state[4], STATE1); }

Intel SHA組み込み関数とARMv8 SHA組み込み関数 Noloader GitHub | SHA-組み込み関数。これらはCソースファイルであり、SHA-1、SHA-224、およびSHA-256の圧縮機能を提供します。組み込みベースの実装により、SHA-1のスループットが約3倍から4倍、約6倍からSHA-224およびSHA-256の場合は12倍。

Claris · Answer

これはIntelリファレンス実装です。

http://downloadmirror.intel.com/22357/eng/sha256_code_release_v2.Zip

そして、コードは次のように説明されています。

http://www.intel.com/content/www/us/en/intelligent-systems/intel-technology/sha-256-implementations-paper.html

HaswellベースのXeonマイクロプロセッサ（E5-2650 v3）で約350 MB/sを取得します。これはアセンブリで実装され、IntelAES-NIを利用します。

更新：

SHA（現在はISA-L_cryptoの一部）の最新のIntelリファレンス実装は次の場所にあります。

https://github.com/01org/isa-l_crypto/tree/master/sha256_mb

jj99 · Answer

ブライアン・グラッドマン博士の実装をチェックしてください http://www.gladman.me.uk/ 。 cgminerのものより約15％高速です。 SSEを使わずにもっとうまくやれるとは思いません