web-dev-qa-db-ja.com

短い文字列(タグ名)に最適な32ビットハッシュ関数は何ですか?

比較的短い文字列に最適な32ビットハッシュ関数は何ですか?

文字列は、英語の文字、数字、スペース、およびいくつかの追加文字(#$.、...)。例えば: Unit testingC# 2.0

「最小限の衝突」のように「最高」を探しています。パフォーマンスは私の目標にとって重要ではありません。

44
Andrey Shchekin

パフォーマンスが重要でない場合は、MD5やSHA1などの安全なハッシュを取得し、その出力を32ビットに切り捨てます。これにより、ランダムと区別できないハッシュコードの分布が得られます。

22
Nick Johnson

最良の選択かどうかはわかりませんが、文字列のハッシュ関数は次のとおりです。

プログラミングの実践 (HASH TABLES、pg。57)

/* hash: compute hash value of string */
unsigned int hash(char *str)
{
   unsigned int h;
   unsigned char *p;

   h = 0;
   for (p = (unsigned char*)str; *p != '\0'; p++)
      h = MULTIPLIER * h + *p;
   return h; // or, h % ARRAY_SIZE;
}

経験的に、値31および37は、ASCII文字列のハッシュ関数の乗数の適切な選択であることが証明されています。

25

返信が遅くなってすみません。今年の初めに Hashing Short Strings というタイトルのページを作成しました。このページはこの議論に役立つかもしれません。要約すると、CRC-32とFNV-1aは短い文字列のハッシュに優れていることがわかりました。これらは効率的で、私のテストでは広く分散された衝突のないハッシュを生成します。出力がfoldedで32ビットになったときに、MD5、SHA-1、およびSHA-3が少数の衝突を生成したことに驚いた。

14
gfkeogh

Murmurhash2をチェックしてください。また、小さな弦に対しても高速であり、ミキシングの最終ステップが良好であるため、非常に小さな弦に対しても良好にミックスされます。

1

それはハードウェアに依存します。最新のハードウェア、つまりSSE4.2またはarm7を搭載したIntel/AMDでは、内部_mm_crc32_uxx組み込み関数。短い文字列に最適です。 (長いキーにも使用できますが、zlibのように、Adlerのスレッドバージョンを使用する方が適切です)

古いハードウェアまたは不明なハードウェアでは、SSE4.2またはCRC32機能の実行時プローブを使用するか、単純な良好なハッシュ関数の場合は1つを使用します。例えば。 Murmur2またはCity

品質とパフォーマンスの概要はこちら: https://github.com/rurban/smhasher#smhasher

すべての実装もあります。 https://github.com/rurban/smhasher/blob/master/crc32_hw.c および https://github.com/rurban/smhasher/blob/master/MurmurHash2 .cpp

事前にキーを知っている場合は、ハッシュ関数ではなく、完全なハッシュを使用してください。例えば。 gperfまたはmyphashhttps:// github .com/rurban/Perfect-Hash#name

現在、cコンパイラを使用した完全なハッシュ生成は非常に高速であり、オンザフライで作成してダイナロードすることもできます。

1
rurban

プログラムが他のシステムと通信する必要がある場合、よく知られているアルゴリズムを使用することをお勧めします。手っ取り早い方法はmd5ハッシュの最初のいくつかの文字を使用です。プロジェクトでホイールを発明するのに何時間も何日も費やす必要はありません。

欠点は、衝突する可能性が非常に高いことです。ただし、ハッシュがタイムスタンプ付きセッションまたは短期間の循環タスク用である場合。それを使用しても問題はありません。

0
Yi Jiang

ユーザーが新しいタグを追加することがまれな場合は、新しいタグが追加されるたびに再計算される完全なハッシュ( http://en.wikipedia.org/wiki/Perfect_hash_function )を使用できます。もちろん、あなたが本当に解決しようとしている問題を知らないで、あなたが何をするかもしれないかを推測することは推測です。

0
user97370

使用する MaPrime2cハッシュ関数:

static const unsigned char sTable[256] =
{
  0xa3,0xd7,0x09,0x83,0xf8,0x48,0xf6,0xf4,0xb3,0x21,0x15,0x78,0x99,0xb1,0xaf,0xf9,
  0xe7,0x2d,0x4d,0x8a,0xce,0x4c,0xca,0x2e,0x52,0x95,0xd9,0x1e,0x4e,0x38,0x44,0x28,
  0x0a,0xdf,0x02,0xa0,0x17,0xf1,0x60,0x68,0x12,0xb7,0x7a,0xc3,0xe9,0xfa,0x3d,0x53,
  0x96,0x84,0x6b,0xba,0xf2,0x63,0x9a,0x19,0x7c,0xae,0xe5,0xf5,0xf7,0x16,0x6a,0xa2,
  0x39,0xb6,0x7b,0x0f,0xc1,0x93,0x81,0x1b,0xee,0xb4,0x1a,0xea,0xd0,0x91,0x2f,0xb8,
  0x55,0xb9,0xda,0x85,0x3f,0x41,0xbf,0xe0,0x5a,0x58,0x80,0x5f,0x66,0x0b,0xd8,0x90,
  0x35,0xd5,0xc0,0xa7,0x33,0x06,0x65,0x69,0x45,0x00,0x94,0x56,0x6d,0x98,0x9b,0x76,
  0x97,0xfc,0xb2,0xc2,0xb0,0xfe,0xdb,0x20,0xe1,0xeb,0xd6,0xe4,0xdd,0x47,0x4a,0x1d,
  0x42,0xed,0x9e,0x6e,0x49,0x3c,0xcd,0x43,0x27,0xd2,0x07,0xd4,0xde,0xc7,0x67,0x18,
  0x89,0xcb,0x30,0x1f,0x8d,0xc6,0x8f,0xaa,0xc8,0x74,0xdc,0xc9,0x5d,0x5c,0x31,0xa4,
  0x70,0x88,0x61,0x2c,0x9f,0x0d,0x2b,0x87,0x50,0x82,0x54,0x64,0x26,0x7d,0x03,0x40,
  0x34,0x4b,0x1c,0x73,0xd1,0xc4,0xfd,0x3b,0xcc,0xfb,0x7f,0xab,0xe6,0x3e,0x5b,0xa5,
  0xad,0x04,0x23,0x9c,0x14,0x51,0x22,0xf0,0x29,0x79,0x71,0x7e,0xff,0x8c,0x0e,0xe2,
  0x0c,0xef,0xbc,0x72,0x75,0x6f,0x37,0xa1,0xec,0xd3,0x8e,0x62,0x8b,0x86,0x10,0xe8,
  0x08,0x77,0x11,0xbe,0x92,0x4f,0x24,0xc5,0x32,0x36,0x9d,0xcf,0xf3,0xa6,0xbb,0xac,
  0x5e,0x6c,0xa9,0x13,0x57,0x25,0xb5,0xe3,0xbd,0xa8,0x3a,0x01,0x05,0x59,0x2a,0x46
};


#define PRIME_MULT 1717


unsigned int
maPrime2cHash (unsigned char *str, unsigned int len)
{
  unsigned int hash = len, i;


  for (i = 0; i != len; i++, str++)
    {

      hash ^= sTable[( *str + i) & 255];
      hash = hash * PRIME_MULT;
    }

  return hash;
}

maFastPrime、MaRushPrimeなどのテストについては、www.amsoftware.narod.ru/algo2.htmlをご覧ください。

0
Alexander