私は通常、WinMergeを使用してファイル間の違いを表示しますが、この場合は役に立ちません。比較しているファイルのファイル名が異なることがわかっているため、同じドキュメント内の2つのファイルのファイル名が異なると誤検知が発生します。
私の会社が取引しているすべてのベンダーを表す多くのディレクトリでいっぱいのフォルダがあり、それらには領収書と請求書の多くの.pdfファイルが含まれています。マスターベンダーリストです。請求書と領収書には、コンテキストを提供するための周囲のディレクトリ構造がないと名前が意味をなさないように名前が付けられています。たとえば、ここには「Vendors/Company Foo/Product Bar/Invoice#3.pdf」があります。
次に、マスターベンダーリストとは別に管理されていた、多くの領収書と請求書が含まれる別のフォルダーがあり、マスターベンダーの適切なエントリに入力されたすべての領収書と請求書の手動で作成されたコピーが含まれるはずでしたディレクトリ構造。これらの領収書と請求書は、会計士が何を指しているのかを読みやすく、理解しやすいように名前が変更されました。たとえば、ここには「Taxes /CompanyFooProductBar.pdf」があります。
マスターベンダーリストのトップレベルフォルダーでタイプ.pdfのファイルを検索したので、検索結果には、ディレクトリ構造内のすべてのベンダーからの領収書と請求書が含まれます。次に、これらの.pdfファイルをデスクトップ上の別のフォルダーにコピーして、比較できるようにしました。 WinMergeを使用してこれらのファイルを「taxes」フォルダ内のファイルと比較し、「taxes」フォルダ内のファイルが「mastervendor」ディレクトリに存在しないかどうかを確認しました。その逆も同様です。
ただし、WinMergeは、ファイル名が一致しないという理由だけで、ファイルを異なるものとしてカウントします。ファイル名が何であるかにかかわらず、ファイルの内容が異なるかどうかを知る必要があります。
これらのファイルは何百もあり、対応する「マスターベンダー」ディレクトリにない「taxes」フォルダにある場合は、それを修正して正しくファイルする必要があります。
誰かがこれを行うことができるツールをお勧めできますか?
i-net PDFコンテンツ比較 が役立つと思います。
現在バージョン2.0で、GUIと柔軟な価格設定オプションを提供しています。ソフトウェアのあらゆる側面をチェックできる30日間の無料試用版がまだあります。
ある種のUNIX環境を利用できる場合(Windowsを使用している場合は、 Cygwin をお勧めします)、現在のディレクトリの下に次のような重複ファイルを簡単に見つけることができます。
find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32
出力は、md5sumと、少なくとも1つの重複があるすべてのファイルの名前(同じmd5sum)になります。重複はアルファベット順に次々に表示されます。 find
の後の.
を、現在のディレクトリでない場合は、調べたいパスと交換します。
逆に、重複のないファイルを取得するには、
find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32
これにより、現在のディレクトリの下に重複のないファイルのみが印刷されます。
PDFドキュメントのメタデータとページ画像の両方をピクセルレベルで比較するアプリ「PDFCompare」をお試しください。
https://www.Microsoft.com/en-us/store/p/pdfcompare/9n9dmzjbz2nl#
ちょうどこれが私が使用したものであり、それは膨らみ、そしてそれは簡単でした!