Python dictと組み込みの型を設定するにはどのくらいの費用がかかりますか？

Question

データベースの重複排除について project を引き受けました。私はいくつかの調査を行ったところ、Python dictタイプは実際には open addressing を使用するハッシュマップであることがわかりました。

重複排除モジュールでは、2つのレコードが同一であるかどうかを決定するいくつかのルールがあり、ルールは基本的にレコードを一意に識別する属性をスペルアウトします（DBは非リレーショナルになるため、これを候補キーと呼ばないでください）、no-sql）。ここで、非常に大きなデータセットを扱っているとしましょう。当然のことながら、ハッシュ化が進むべき道です（そのアドバイスを見つけてください here ）。

質問）：

モジュールはハッシュとを計算してからdictに格納する必要がありますか？ dict実装自体がハッシュマップなので、それは不要ではないでしょうか？
リストからセットへの変換はどのくらいコストがかかりますか？その変換はすべての重複を削除する必要がありますが、巨大なスケールを考えると、それは実用的ですか？
「in」キーワードを使用して、dict/setのメンバーシップをチェックするときに発生するコストはどれくらいですか？

Hadoop MapReduceは、少なくとも現時点ではオプションではありません。

Pythonソースを調べてこれを理解することはできません。厳密に時間制限があるためです。|

S.Lott · Accepted Answer

http://wiki.python.org/moin/TimeComplexity

それはほとんどすべてをカバーするはずです。まだこのページにないものは何が必要ですか？