データベースの重複排除について project を引き受けました。私はいくつかの調査を行ったところ、Python dictタイプは実際には open addressing を使用するハッシュマップであることがわかりました。
重複排除モジュールでは、2つのレコードが同一であるかどうかを決定するいくつかのルールがあり、ルールは基本的にレコードを一意に識別する属性をスペルアウトします(DBは非リレーショナルになるため、これを候補キーと呼ばないでください) 、no-sql)。ここで、非常に大きなデータセットを扱っているとしましょう。当然のことながら、ハッシュ化が進むべき道です(そのアドバイスを見つけてください here )。
質問):
Hadoop MapReduceは、少なくとも現時点ではオプションではありません。
Pythonソースを調べてこれを理解することはできません。厳密に時間制限があるためです。|
http://wiki.python.org/moin/TimeComplexity
それはほとんどすべてをカバーするはずです。まだこのページにないものは何が必要ですか?