web-dev-qa-db-ja.com

最高のファジーマッチングアルゴリズム?

100,000件を超えるレコードをより短時間で処理するための最良のファジーマッチングアルゴリズム(ファジーロジック、N-Gram、Levenstein、Soundexなど)は何ですか?

27
Dhana

近似文字列マッチング というタイトルのWikipediaの記事の参考文献セクションで言及されているNavarroの記事を読むことをお勧めします。実際の調査に基づいて決定を下すことは、ランダムな見知らぬ人からの提案よりも常に優れています。特に、既知の一連のレコードに対するパフォーマンスが重要である場合。

24
Tim

それはあなたのデータに大きく依存します。特定のレコードは、他のレコードよりも一致させることができます。たとえば、郵便番号は定義された形式なので、通常の文字列とは異なる方法で比較できます。イニシャルとDOB、または他の組み合わせなどで人物を一致させることができます。

3
cjk