最高のファジーマッチングアルゴリズム？

Question

100,000件を超えるレコードをより短時間で処理するための最良のファジーマッチングアルゴリズム（ファジーロジック、N-Gram、Levenstein、Soundexなど）は何ですか？

Tim · Accepted Answer

近似文字列マッチング というタイトルのWikipediaの記事の参考文献セクションで言及されているNavarroの記事を読むことをお勧めします。実際の調査に基づいて決定を下すことは、ランダムな見知らぬ人からの提案よりも常に優れています。特に、既知の一連のレコードに対するパフォーマンスが重要である場合。

cjk · Answer

それはあなたのデータに大きく依存します。特定のレコードは、他のレコードよりも一致させることができます。たとえば、郵便番号は定義された形式なので、通常の文字列とは異なる方法で比較できます。イニシャルとDOB、または他の組み合わせなどで人物を一致させることができます。