一致スコアを提供するファジー文字列マッチング用のプログラムはありますか？

Question

ファイルAおよびファイルBに文字列のリストがあります。ファイルAの各文字列を取得し、ファイルBで最も類似した文字列を見つけたい.

このために、ファジー比較を提供するツールを探しています。

例えば：

$ fuzzy_compare "Some string" "Some string" 100

ここで、100は等比です。たとえば、レーベンシュタイン距離。

ユーティリティはありますか？私は車輪を再発明したくありません。

terdon · Accepted Answer

このページが見つかりました。これは、さまざまな言語でのレーベンシュタイン距離アルゴリズムの実装を提供します。したがって、たとえばbashでは、次のことができます。

#!/bin/bash function levenshtein { if [ "$#" -ne "2" ]; then echo "Usage: $0 Word1 Word2" >&2 Elif [ "${#1}" -lt "${#2}" ]; then levenshtein "$2" "$1" else local str1len=$((${#1})) local str2len=$((${#2})) local d i j for i in $(seq 0 $(((str1len+1)*(str2len+1)))); do d[i]=0 done for i in $(seq 0 $((str1len))); do d[$((i+0*str1len))]=$i done for j in $(seq 0 $((str2len))); do d[$((0+j*(str1len+1)))]=$j done for j in $(seq 1 $((str2len))); do for i in $(seq 1 $((str1len))); do [ "${1:i-1:1}" = "${2:j-1:1}" ] && local cost=0 || local cost=1 local del=$((d[(i-1)+str1len*j]+1)) local ins=$((d[i+str1len*(j-1)]+1)) local alt=$((d[(i-1)+str1len*(j-1)]+cost)) d[i+str1len*j]=$(echo -e "$del
$ins
$alt" | sort -n | head -1) done done echo ${d[str1len+str1len*(str2len)]} fi } while read str1; do while read str2; do lev=$(levenshtein "$str1" "$str2"); printf '%s / %s : %s
' "$str1" "$str2" "$lev" done < "$2" done < "$1"

それを~/bin/levenshtein.shとして保存し、実行可能（chmod a+x ~/bin/levenshtein.sh）にして、2つのファイルで実行します。例えば：

$ cat fileA foo Zoo bar fob baar $ cat fileB foo loo baar bob gaf $ a.sh fileA fileB foo / foo : 0 foo / loo : 1 foo / baar : 4 foo / bob : 2 foo / gaf : 3 Zoo / foo : 1 Zoo / loo : 1 Zoo / baar : 4 Zoo / bob : 2 Zoo / gaf : 3 bar / foo : 3 bar / loo : 3 bar / baar : 1 bar / bob : 2 bar / gaf : 2 fob / foo : 1 fob / loo : 2 fob / baar : 4 fob / bob : 1 fob / gaf : 3 baar / foo : 4 baar / loo : 4 baar / baar : 0 baar / bob : 3 baar / gaf : 3

いくつかのパターンでは問題ありませんが、大きなファイルではvery遅くなります。それが問題になる場合は、他の言語の実装のいずれかを試してください。たとえば、Perl：

#!/usr/bin/Perl use List::Util qw(min); sub levenshtein { my ($str1, $str2) = @_; my @ar1 = split //, $str1; my @ar2 = split //, $str2; my @dist; $dist[$_][0] = $_ foreach (0 .. @ar1); $dist[0][$_] = $_ foreach (0 .. @ar2); foreach my $i (1 .. @ar1) { foreach my $j (1 .. @ar2) { my $cost = $ar1[$i - 1] eq $ar2[$j - 1] ? 0 : 1; $dist[$i][$j] = min( $dist[$i - 1][$j] + 1, $dist[$i][$j - 1] + 1, $dist[$i - 1][$j - 1] + $cost ); } } return $dist[@ar1][@ar2]; } open(my $fh1, "$ARGV[0]"); open(my $fh2, "$ARGV[1]"); chomp(my @strings1=<$fh1>); chomp(my @strings2=<$fh2>); foreach my $str1 (@strings1) { foreach my $str2 (@strings2) { my $lev=levenshtein($str1, $str2); print "$str1 / $str2 : $lev
"; } }

上記のように、スクリプトを~/bin/levenshtein.plとして保存し、実行可能にし、2つのファイルを引数として実行します。

~/bin/levenstein.pl fileA fileB

ここで使用されている非常に小さなファイルでも、Perlのアプローチはbashのアプローチよりも10倍高速です。

$ time levenshtein.sh fileA fileB > /dev/null real 0m0.965s user 0m0.070s sys 0m0.057s $ time levenshtein.pl fileA fileB > /dev/null real 0m0.011s user 0m0.010s sys 0m0.000s