同じ名前で内容が異なるファイルを検索しますか？

Question

次のようなファイルのリストを生成したい：

同じ名前
異なるコンテンツ

ディレクトリ内（すべての子ディレクトリとコンテンツを含む）。

実行する方法？ Bash、Perl、何でも構いません。

したがって、同じ名前で同じ内容の2つのファイルが表示されないようにする必要があります。

Peter.O · Accepted Answer

更新：スクリプトのタイプミスを修正しました：print $NFをprint $3に変更しました。また、物事を片付け、いくつかのコメントを追加しました。

ファイルnamesにが含まれていないとすると、次のように、セクションコントロールブレークのように一意でブレークするソート済みリストが出力されます。 file name、一意のmd5sum、および対応するファイルパスのグループを表示します。

#!/bin/bash # Choose which script to use for the final awk step out_script=out_all # Print all duplicated file names, even when md5sum is the same out_all='{ if( p1 != $1 ) { print nl $1; print I $2 } else if( p2 != $2 ) { print I $2 } print I I $3; p1=$1; p2=$2; nl="
" } END { printf nl}' # Print only duplicated file names which have multiple md5sums. out_only='{ if( p1 != $1 ) { if( multi ) { print pend } multi=0; pend=$1 "
" I $2 "
" } else if( p2 != $2 ) { multi++; pend=pend I $2 "
" } pend=pend I I $3 "
"; p1=$1; p2=$2 } END { if( multi ) print pend }' # The main pipeline find "${1:-.}" -type f -name '*' | # awk for duplicate names awk -F/ '{ if( name[$NF] ) { dname[$NF]++ } name[$NF]=name[$NF] $0 "
" } END { for( d in dname ) { printf name[d] } }' | # standard md5sum output xargs -d'
' md5sum | # " "==text, "*"==binary sed 's/ [ *]/\x00/' | # prefix with file name awk -F/ '{ print $3 "\x00" $0 }' | # sort by name. md5sum, path sort | # awk to print result awk -F"\x00" -v"I= " "${!out_script}"

onlyfile name withmultiplemd5sを示す出力

afile.html 53232474d80cf50b606069a821374a0a ./test/afile.html ./test/dir.svn/afile.html 6b1b4b5b7aa12cdbcc72a16215990417 ./test/dir.svn/dir.show/afile.html

同じ名前のallファイルを示す出力。

afile.html 53232474d80cf50b606069a821374a0a ./test/afile.html ./test/dir.svn/afile.html 6b1b4b5b7aa12cdbcc72a16215990417 ./test/dir.svn/dir.show/afile.html fi le.html 53232474d80cf50b606069a821374a0a ./test/dir.svn/dir.show/fi le.html ./test/dir.svn/dir.svn/fi le.html file.html 53232474d80cf50b606069a821374a0a ./test/dir.show/dir.show/file.html ./test/dir.show/dir.svn/file.html file.svn 53232474d80cf50b606069a821374a0a ./test/dir.show/dir.show/file.svn ./test/dir.show/dir.svn/file.svn ./test/dir.svn/dir.show/file.svn ./test/dir.svn/dir.svn/file.svn file.txt 53232474d80cf50b606069a821374a0a ./test/dir.show/dir.show/file.txt ./test/dir.show/dir.svn/file.txt ./test/dir.svn/dir.show/file.txt ./test/dir.svn/dir.svn/file.txt

Kyle Jones · Answer

これがPerlスクリプトです。検索したいツリーの一番上にあるディレクトリで実行します。スクリプトはfindとmd5に依存しますが、後者はsha1、sum、またはstdinへの入力を受け入れて出力するその他のファイルハッシュプログラムに置き換えることができます。 stdoutのハッシュ。

use strict; my %files; my %nfiles; my $HASHER = 'md5'; sub print_array { for my $x (@_) { print "$x
"; } } open FINDOUTPUT, "find . -type f -print|" or die "find"; while (defined (my $line = <FINDOUTPUT>)) { chomp $line; my @segments = split ///, $line; my $shortname = pop @segments; Push @{ $files{$shortname} }, $line; $nfiles{$shortname}++; } for my $shortname (keys %files) { if ($nfiles{$shortname} < 2) { print_array @{ $files{$shortname} }; next; } my %nhashes; my %revhashes; for my $file (@{ $files{$shortname} }) { my $hash = `$HASHER < $file`; $revhashes{$hash} = $file; $nhashes{$hash}++; } for my $hash (keys %nhashes) { if ($nhashes{$hash} < 2) { my $file = $revhashes{$hash}; print "$file
"; } } }

user379997 · Answer

finddup このツールは、同じ名前またはコンテンツのファイルを一覧表示するのにも役立ちます。

int_ua · Answer

ファイル名のリストのみを表示したい場合は、Peter.Oの answer の関連部分を次に示します。

find "${1:-.}" -type f -name '*' | awk -F/ '{ if( name[$NF] ) { dname[$NF]++ } name[$NF]=name[$NF] $0 "
" } END { for( d in dname ) { printf name[d] "
" }

} '

スクリプトの前にfslint-guiを使用してすべての重複をクリアするため、md5sumsは必要ありません。