ディレクトリとサブディレクトリ内のファイルの重複を削除するにはどうすればよいですか？

Question

ハッシュ合計に基づいてファイルの重複を削除する高速な方法はありますか（つまり、SHA1が高速です）。私の音楽ファイルにいくつかの混乱があるからです。

rush · Accepted Answer

Linuxにはパッケージfdupesがあります（たとえば、debianリポジトリにあります）。 md5sumsを使用し、次にバイトごとの比較を使用して、ディレクトリのセット内の重複ファイルを検索します。 -dオプションを使用して重複を削除することもできますが、私はそのオプションを使用したことがありません。また、出力ファイルからgrepまたはsedを実行して、それらをディスクから削除および削除することもできます。

Sachin Divekar · Answer

this unix/linux textutilsパイプラインが非常に便利であることがわかります。このコマンドは最初にファイルのサイズを比較し、サイズが同じ場合はハッシュのみを比較します。

OR

fdupes ユーティリティroを使用して重複ファイルを識別できます。

どちらのソリューションもmd5ハッシュを使用します

Ali · Answer

liten2 http://code.google.com/p/liten2/ mac osxでも動作します！
ドライラン、インタラクティブ削除など、非常に便利な機能を多数備えたpythonスクリプトです...
そして非常に高速です。