web-dev-qa-db-ja.com

WinRARは重複ファイルを検出しますか?

サブディレクトリのあるディレクトリがあり、その中に重複ファイルがたくさんあります。すべてを単一のrarアーカイブに移動した場合、WinRARは重複ファイルを検出しますか、それともすべてがアーカイブされて、rarアーカイブのサイズになりますか?

7
sashoalm

WinRARの新しいバージョンである5.00は、新しいRAR5アーカイブ形式を導入しており、この機能は多くの改善点の1つです。

同一のファイルを参照として保存

このオプションが有効になっている場合、WinRARはアーカイブを開始する前にファイルの内容を分析します。 64 KBを超える同一のファイルが複数見つかった場合、セットの最初のファイルは通常のファイルとして保存され、後続のすべてのファイルはこの最初のファイルへの参照として保存されます。アーカイブサイズを小さくすることはできますが、結果のアーカイブにいくつかの制限が適用されます。アーカイブの作成後にアーカイブ内の最初の同一ファイルを削除したり名前を変更したりしないでください。参照として使用して次のファイルを抽出できなくなります。最初のファイルを変更すると、抽出後に次のファイルの内容も変更されます。次のファイルを正常に作成するには、抽出コマンドに最初のファイルを含める必要があります。

このオプションは、多数の同一ファイルを圧縮し、後でアーカイブを変更せず、個々のファイルを解凍またはスキップする必要なしにアーカイブを完全に抽出する場合にのみ使用することをお勧めします。すべての同一ファイルが圧縮辞書に収まるほど小さい場合、ソリッドアーカイブはこのオプションよりも柔軟なソリューションを提供できます。

RAR5.0アーカイブでのみサポートされます。

320,000ファイルを含むフォルダーでの私のクイックテスト(多くのmodを備えたBaldur's Gate Trilogy):

RAR4圧縮方式、「ストア」に設定された圧縮:26.1 GB(28,053,815,768バイト)

RAR5圧縮方式、「保存」および「参照として同一ファイルを保存」に設定された圧縮がオン:23.9 GB(25,722,664,097バイト)

そのため、圧縮をまったく使用せずに9%以上節約することができました。

7
ALIENQuake

ファイルが実際に重複している(またはほぼ重複している)場合、圧縮ソフトウェアはファイル間の類似性を利用して、圧縮率を大幅に向上させることができます。それは 固体圧縮 と呼ばれます。 WinRARと7-Zipは、それを使用する2つの人気のあるアーカイバです。7-Zipはデフォルトで使用します。私はRARユーザーではないので、デフォルトの構成とは言えません。

Linux/Unix/BSDシステムの一般的なアーカイバも、すべてのファイルを1つのファイルに連結して(ほとんどの場合、tarを介して)、その単一のファイルを大きなブロックとして圧縮することにより、暗黙的に確実な圧縮を行います。

これらすべてに対する1つの大きな注意点は、どのファイルが類似しているか、またはそれらがどれほど類似しているかを正確に知る方法が実際にはないということです。重複しているファイルを見つけるのは良い方法ではありません。アーカイブを抽出すると、重複しているファイルがすべて復元されます。これは通常、データ圧縮でまさに望んでいることであり、期待されていることです。つまり、データ圧縮に入れられたものを正確に取り戻すことです。

フォルダをクリーンアップする場合は、重複検出ソフトウェアが必要です。通常のコレクションの場合、重複ファイルを探し出すソフトウェアはたくさんあります。メディア(オーディオ、ビデオ、写真)を扱っている場合は、正確な重複を検索しないが、ファイルのフィンガープリントを作成し、類似するファイルのグループを見つけることができるソフトウェアが必要になります。そうすれば、同じ曲のコピーが2つあり、タグが異なるか、圧縮がわずかに異なる場合(たとえば、128 Kb/s MP3および256 Kb/s AAC)それらを識別することができます。または、1つがトリミングまたは編集された同じ主題の2つの写真を識別します。各メディアタイプには、類似したファイルを見つけるための専用ソフトウェアが含まれていることが多く、詳細を扱う前にここで質問があります。もちろん、このようなコレクションのクリーンアップは、保持するファイルを決定するための迅速で簡単なルールがないため、はるかに困難で時間がかかります。

7
afrazier

WinRARはあなたが望むことをしません。ただし、フォルダ内またはパーティション内で重複ファイルを見つけることができる他のツールがあります。私は以前にそのようなことをする必要がありました、そして私は Easy Duplicate Finder ソフトウェアを使用しました:

Easy Duplicate Finderは、重複する写真、ドキュメント、スプレッドシート、MP3などを見つけて解決するための強力なツールです。重複を削除すると、インデックス作成が高速化され、バックアップのサイズと時間が短縮されます。不要な重複ファイルをすべて削除するまで、コンピューターは完全に最適化されません。 Easy Duplicate Finderで重複を削除しましょう!

3
Diogo