web-dev-qa-db-ja.com

ファジー重複ファイルファインダー?

ssdeepsdhash のようなファジーハッシュアルゴリズムを実装して、ほぼ重複するファイル(主にテキストファイル)を見つけるGUIアプリケーション(WindowsまたはLinux用)はありますか?

3
Alix Axel

Duplicates Finderの近く を試すことができます。それはあなたが求めているものではありませんが、Javaベースなので、Javaが機能するすべてのプラットフォーム(Windows、OS Xを含む)で機能しますおよびLinux)。IsにはGUIインターフェイスがありませんが、TXT、DOC、HTML、PDFなどのテキストベースのファイルのほぼ重複が検出されます。

使用例

Near Duplicates Finder v.0.1.0
Usage: Java com.softcorporation.neardup.DuplicatesFinder parameters ...

Parameters format: -parameter [value]
    -start filename[,filename]  directory / file(s) to search for duplicates (mandatory)
    -report filename            report file (by default report goes to ./report.log file)
    -score                      the score to report the duplicate (default is 0.6)
    -onlynew                    find the duplicates only for new documents
    -gram                       number of words in a phrase
    -purge                      clear files list from past runs
    -db                         location of db directory with files list
    -delete criteria            remove duplicates by criteria (old, new, small, large)
    -deletepath pattern         remove only matching pattern files (mandatory for delete)
    -verbose                    display progress information (on standard output)

Example: Find duplicates from text files in directory 'docs' and save report in 'report.log'
    Java com.softcorporation.neardup.DuplicatesFinder -start docs -report report.log

For more information visit web site: http://www.softcorporation.com/products/neardup
2
Vadim

これがあなたが探している 重複ファイルファインダー だと思います。ソースコードファイル(テキストファイル)でも非常にうまく機能する類似モードがありますが、商用PROバージョンで利用できます。

0
Jack Dorsey

Ssdeepの SSDeepFE を見つけました。

また、sdhashにはWebベースのGUIがあるようですが、まだあまり役に立ちません。

0
Alix Axel