Python：リストを並べ替えずにプログレッシブ番号でリスト内の重複の名前を変更する

Question

このようなリストを考えると：

mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"]

次の結果を得るために、番号を追加して重複の名前を変更したいと思います。

mylist = ["name1", "state", "name2", "city", "name3", "Zip1", "Zip2"]

元のリストの順序を変更したくありません。このために提案された解決策関連するスタックオーバーフローの質問リストを並べ替えますが、これはやりたくないです。

Rick Teachey · Accepted Answer

これが私がそれをする方法です。編集：人々がこの答えを好むように見えるので、私はこれをより一般化された効用関数に書きました。

mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] check = ["name1", "state", "name2", "city", "name3", "Zip1", "Zip2"] copy = mylist[:] # so we will only mutate the copy in case of failure from collections import Counter # Counter counts the number of occurrences of each item from itertools import tee, count def uniquify(seq, suffs = count(1)): """Make all the items unique by adding a suffix (1, 2, etc). `seq` is mutable sequence of strings. `suffs` is an optional alternative suffix iterable. """ not_unique = [k for k,v in Counter(seq).items() if v>1] # so we have: ['name', 'Zip'] # suffix generator dict - e.g., {'name': <my_gen>, 'Zip': <my_gen>} suff_gens = dict(Zip(not_unique, tee(suffs, len(not_unique)))) for idx,s in enumerate(seq): try: suffix = str(next(suff_gens[s])) except KeyError: # s was unique continue else: seq[idx] += suffix uniquify(copy) assert copy==check # raise an error if we failed mylist = copy # success

各カウントの前にアンダースコアを追加したい場合は、次のようにすることができます。

>>> mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] >>> uniquify(mylist, (f'_{x!s}' for x in range(1, 100))) >>> mylist ['name_1', 'state', 'name_2', 'city', 'name_3', 'Zip_1', 'Zip_2']

...または代わりに文字を使用したい場合：

>>> mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] >>> import string >>> uniquify(mylist, (f'_{x!s}' for x in string.ascii_lowercase)) >>> mylist ['name_a', 'state', 'name_b', 'city', 'name_c', 'Zip_a', 'Zip_b']

注：これは可能な限り最速のアルゴリズムではありません。そのためには、 ronakgによる回答を参照してください。上記の関数の利点は、理解と読み取りが簡単であり、リストが非常に大きい場合を除いて、パフォーマンスの違いがあまり見られないことです。

編集：これはワンライナーでの私の元の答えですが、順序は保持されず、.indexメソッドを使用します。これは非常に最適ではありません（ DTingによる答えで説明されています）。順序を維持するニースの「2ライナー」については、 queezzによる回答を参照してください。

[s + str(suffix) if num>1 else s for s,num in Counter(mylist).items() for suffix in range(1, num+1)] # Produces: ['Zip1', 'Zip2', 'city', 'state', 'name1', 'name2', 'name3']

user3278460 · Answer

mapとlambdaを使用した私のソリューション：

print map(lambda x: x[1] + str(mylist[:x[0]].count(x[1]) + 1) if mylist.count(x[1]) > 1 else x[1], enumerate(mylist))

より伝統的な形

newlist = [] for i, v in enumerate(mylist): totalcount = mylist.count(v) count = mylist[:i].count(v) newlist.append(v + str(count + 1) if totalcount > 1 else v)

そして最後の1つ

[v + str(mylist[:i].count(v) + 1) if mylist.count(v) > 1 else v for i, v in enumerate(mylist)]

DTing · Answer

countはO(n^2)であるため、各要素でcountが呼び出されるメソッドはすべてO(n)になります。あなたはこのようなことをすることができます：

_# not modifying original list from collections import Counter mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] counts = {k:v for k,v in Counter(mylist).items() if v > 1} newlist = mylist[:] for i in reversed(range(len(mylist))): item = mylist[i] if item in counts and counts[item]: newlist[i] += str(counts[item]) counts[item]-=1 print(newlist) # ['name1', 'state', 'name2', 'city', 'name3', 'Zip1', 'Zip2'] _

_# modifying original list from collections import Counter mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] counts = {k:v for k,v in Counter(mylist).items() if v > 1} for i in reversed(range(len(mylist))): item = mylist[i] if item in counts and counts[item]: mylist[i] += str(counts[item]) counts[item]-=1 print(mylist) # ['name1', 'state', 'name2', 'city', 'name3', 'Zip1', 'Zip2'] _

これはO(n)である必要があります。

その他の提供された回答：

mylist.index(s)要素ごとにO(n^2)が発生します

_mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] from collections import Counter counts = Counter(mylist) for s,num in counts.items(): if num > 1: for suffix in range(1, num + 1): mylist[mylist.index(s)] = s + str(suffix) _

count(x[1])要素ごとにO(n^2)が発生します
リストのスライスとともに、要素ごとに複数回使用されます。

_print map(lambda x: x[1] + str(mylist[:x[0]].count(x[1]) + 1) if mylist.count(x[1]) > 1 else x[1], enumerate(mylist)) _

ベンチマーク：

http://nbviewer.ipython.org/Gist/dting/c28fb161de7b6287491b

ronakg · Answer

これは非常に単純なO(n)ソリューションです。リスト内の要素のインデックスを格納しているリストを歩くだけです。この要素を以前に見たことがある場合は、以前に保存されたデータを使用してオカレンス値を追加します。

このアプローチは、ルックバック用の辞書をもう1つ作成するだけで問題を解決します。一時的なリストスライスを作成しないように、先読みを回避します。

mylist = ["name", "state", "name", "city", "city", "name", "Zip", "Zip", "name"] dups = {} for i, val in enumerate(mylist): if val not in dups: # Store index of first occurrence and occurrence value dups[val] = [i, 1] else: # Special case for first occurrence if dups[val][1] == 1: mylist[dups[val][0]] += str(dups[val][1]) # Increment occurrence value, index value doesn't matter anymore dups[val][1] += 1 # Use stored occurrence value mylist[i] += str(dups[val][1]) print mylist # ['name1', 'state', 'name2', 'city1', 'city2', 'name3', 'Zip1', 'Zip2', 'name4']

queezz · Answer

Rick Teacheyのリスト内包バージョン answer 、 "two-liner"：

from collections import Counter m = ["name", "state", "name", "city", "name", "Zip", "Zip"] d = {a:list(range(1, b+1)) if b>1 else '' for a,b in Counter(m).items()} [i+str(d[i].pop(0)) if len(d[i]) else i for i in m] #['name1', 'state', 'name2', 'city', 'name3', 'Zip1', 'Zip2']

wang scott · Answer

この問題を解決するには、ハッシュテーブルを使用できます。辞書を定義するd。キーは文字列で、値は（first_time_index_in_the_list、times_of_appearance）です。 Wordが表示されるたびに、辞書を確認し、値が2の場合は、first_time_index_in_the_listを使用して最初の要素に「1」を追加し、現在の要素にtimes_of_appearanceを追加します。 2より大きい場合は、現在の要素にtimes_of_appearanceを追加するだけです。

Vaulstein · Answer

あまり派手でないもの。

from collections import defaultdict mylist = ["name", "state", "name", "city", "name", "Zip", "Zip"] finalList = [] dictCount = defaultdict(int) anotherDict = defaultdict(int) for t in mylist: anotherDict[t] += 1 for m in mylist: dictCount[m] += 1 if anotherDict[m] > 1: finalList.append(str(m)+str(dictCount[m])) else: finalList.append(m) print finalList