100,000件を超えるレコードをより短時間で処理するための最良のファジーマッチングアルゴリズム(ファジーロジック、N-Gram、Levenstein、Soundexなど)は何ですか?
近似文字列マッチング というタイトルのWikipediaの記事の参考文献セクションで言及されているNavarroの記事を読むことをお勧めします。実際の調査に基づいて決定を下すことは、ランダムな見知らぬ人からの提案よりも常に優れています。特に、既知の一連のレコードに対するパフォーマンスが重要である場合。
それはあなたのデータに大きく依存します。特定のレコードは、他のレコードよりも一致させることができます。たとえば、郵便番号は定義された形式なので、通常の文字列とは異なる方法で比較できます。イニシャルとDOB、または他の組み合わせなどで人物を一致させることができます。