さまざまなディレクトリに多数のファイルが保存されています。作成時期は異なりますが、内容が同じであることを確認する必要があります。 1つのディレクトリ内のすべてのファイルに対してdiff
を実行する方法が見つかりません。これは可能ですか、それとも別のCLIツールが必要ですか?
それらを比較する必要がなく、知っている必要がある場合ifそれらが異なる場合は、forループを介して、ディレクトリ内のすべてのファイルをディレクトリ内のファイルのいずれかと比較できます。 ..
for i in ./*; do diff -q "$i" known-file; done
...ここで、known-file
は、ディレクトリ内の任意のファイルです。出力が得られない場合、どのファイルも異なりません。それ以外の場合は、known-file
とは異なるファイルのリストが表示されます。
標準のcksum
ユーティリティをawk
とともに使用する:
find . -type f -exec cksum {} + | awk '!ck[$1$2]++ { print $3 }'
cksum
ユーティリティは、現在のディレクトリのファイルごとに3つの列を出力します。 1つ目はチェックサム、2つ目はファイルサイズ、3つ目はファイル名です。
awk
プログラムは、チェックサムとサイズをキーとする配列ck
を作成します。キーがまだ存在しない場合は、ファイル名が出力されます。
これは、一意のチェックサムとサイズを持つ現在のディレクトリのファイル名を取得することを意味します。複数のファイル名を取得する場合、これら2つは異なるチェックサムまたはサイズ、あるいはその両方を持っています。
テスト:
$ ls -l
total 8
-rw-r--r-- 1 kk kk 0 Oct 3 16:32 file1
-rw-r--r-- 1 kk kk 0 Oct 3 16:32 file2
-rw-r--r-- 1 kk kk 6 Oct 3 16:32 file3
-rw-r--r-- 1 kk kk 0 Oct 3 16:32 file4
-rw-r--r-- 1 kk kk 6 Oct 3 16:34 file5
$ find . -type f -exec cksum {} + | awk '!ck[$1$2]++ { print $3 }'
./file1
./file3
ファイルfile1
、file2
、file4
はすべて空ですが、file3
とfile5
にはコンテンツが含まれています。このコマンドは、ファイルのセットが2つあることを示しています。file1
と同じものと、file3
と同じものです。
また、同じファイルが正確に表示される場合もあります。
$ find . -type f -exec cksum {} + | awk '{ ck[$1$2] = ck[$1$2] ? ck[$1$2] OFS $3 : $3 } END { for (i in ck) print ck[i] }'
./file3 ./file5
./file1 ./file2 ./file4
ディレクトリdに一連のファイルがある場合、重複したファイルを探す4つのコードの結果を次に示します。
Environment: LC_ALL = C, LANG = C
(Versions displayed with local utility "version")
OS, ker|rel, machine: Linux, 3.16.0-4-AMD64, x86_64
Distribution : Debian 8.9 (jessie)
bash GNU bash 4.3.30
fdupes 1.51
jdupes 1.5.1 (2016-11-01)
rdfind 1.3.4
duff 0.5.2
-----
Files in directory d:
==> d/f1 <==
1
==> d/f11 <==
1
==> d/f2 <==
2
==> d/f20 <==
Now is the time
for all good men
to come to the aid
of their country.
==> d/f21 <==
Now is the time
for all good men
to come to the aid
of their country.
==> d/f22 <==
Now is the time
for all good men
to come to the aid
of their countryz
==> d/f3 <==
1
-----
Results for fdupes:
d/f1
d/f3
d/f11
d/f20
d/f21
-----
Results for jdupes:
Examining 7 files, 1 dirs (in 1 specified)
d/f1
d/f3
d/f11
d/f20
d/f21
-----
Results for rdfind:
Now scanning "d", found 7 files.
Now have 7 files in total.
Removed 0 files due to nonunique device and inode.
Now removing files with zero size from list...removed 0 files
Total size is 218 bytes or 218 b
Now sorting on size:removed 0 files due to unique sizes from list.7 files left.
Now eliminating candidates based on first bytes:removed 1 files from list.6 files left.
Now eliminating candidates based on last bytes:removed 1 files from list.5 files left.
Now eliminating candidates based on md5 checksum:removed 0 files from list.5 files left.
It seems like you have 5 files that are not unique
Totally, 74 b can be reduced.
Now making results file results.txt
-----
Results for duff:
3 files in cluster 1 (2 bytes, digest e5fa44f2b31c1fb553b6021e7360d07d5d91ff5e)
d/f1
d/f3
d/f11
2 files in cluster 2 (70 bytes, digest 7de790fbe559d66cf890671ea2ef706281a1017f)
d/f20
d/f21
最高の願い...乾杯、drl
GUIツールmeldを試すこともできます。
meld dir1 dir2
または
meld dir1 dir2 dir3