web-dev-qa-db-ja.com

Python-2つの文字列の違い

たくさんの単語をリストに保存したいです。これらの言葉の多くは非常に似ています。たとえば、Word afrykanerskojęzycznyafrykanerskojęzycznymafrykanerskojęzyczninieafrykanerskojęzyczniなどの単語がたくさんあります。 2つの文字列の違いを見つけ、最初の文字列とdiffから2番目の文字列を復元するための効果的な(高速で小さなdiffサイズを与える)ソリューションは何ですか?

58
user2626682

これを行うには、difflibモジュールで ndiff を使用できます。ある文字列を別の文字列に変換するために必要なすべての情報が含まれています。

簡単な例:

import difflib

cases=[('afrykanerskojęzyczny', 'afrykanerskojęzycznym'),
       ('afrykanerskojęzyczni', 'nieafrykanerskojęzyczni'),
       ('afrykanerskojęzycznym', 'afrykanerskojęzyczny'),
       ('nieafrykanerskojęzyczni', 'afrykanerskojęzyczni'),
       ('nieafrynerskojęzyczni', 'afrykanerskojzyczni'),
       ('abcdefg','xac')] 

for a,b in cases:     
    print('{} => {}'.format(a,b))  
    for i,s in enumerate(difflib.ndiff(a, b)):
        if s[0]==' ': continue
        Elif s[0]=='-':
            print(u'Delete "{}" from position {}'.format(s[-1],i))
        Elif s[0]=='+':
            print(u'Add "{}" to position {}'.format(s[-1],i))    
    print()      

プリント:

afrykanerskojęzyczny => afrykanerskojęzycznym
Add "m" to position 20

afrykanerskojęzyczni => nieafrykanerskojęzyczni
Add "n" to position 0
Add "i" to position 1
Add "e" to position 2

afrykanerskojęzycznym => afrykanerskojęzyczny
Delete "m" from position 20

nieafrykanerskojęzyczni => afrykanerskojęzyczni
Delete "n" from position 0
Delete "i" from position 1
Delete "e" from position 2

nieafrynerskojęzyczni => afrykanerskojzyczni
Delete "n" from position 0
Delete "i" from position 1
Delete "e" from position 2
Add "k" to position 7
Add "a" to position 8
Delete "ę" from position 16

abcdefg => xac
Add "x" to position 0
Delete "b" from position 2
Delete "d" from position 4
Delete "e" from position 5
Delete "f" from position 6
Delete "g" from position 7
81
dawg

私はndiffの回答が好きですが、すべてを変更のみのリストに吐き出したい場合は、次のようなことができます:

import difflib

case_a = 'afrykbnerskojęzyczny'
case_b = 'afrykanerskojęzycznym'

output_list = [li for li in difflib.ndiff(case_a, case_b) if li[0] != ' ']
13
Eric

あなたが求めているのは、圧縮の特殊な形式です。 xdelta は、この特定の種類の圧縮用に設計されており、pythonバインディングがありますが、zlibを直接使用することで回避できます。 zlib.compressobjzlib.decompressobjを使用して、zdictパラメーターを「ベースワード」に設定します。 afrykanerskojęzyczny

警告はzdictはpython 3.3以降でのみサポートされており、すべての差分に対して同じ「ベースワード」を持っている場合はコーディングが最も簡単です。 。

3

正規表現モジュール (ファジーセクション)を調べることができます。実際の違いを取得できるかどうかはわかりませんが、少なくとも挿入、削除、置換などのさまざまな種類の変更の許容数を指定できます。

import regex
sequence = 'afrykanerskojezyczny'
queries = [ 'afrykanerskojezycznym', 'afrykanerskojezyczni', 
            'nieafrykanerskojezyczni' ]
for q in queries:
    m = regex.search(r'(%s){e<=2}'%q, sequence)
    print 'match' if m else 'nomatch'
2
perreal