NetAppはブロックレベルの重複排除(ASIS)を提供します。 Linux(またはOpenSolaris、* BSD)で同じ機能を提供するファイルシステム(Fuseベースであっても)を知っていますか?
(私はハードリンクのような誤った重複排除には興味がありません)。
OpenSolarisのZFSには重複排除が導入されていますが、その機能は現在利用できません。
これは、この冬のジェフボンウィックとビルムーアによってプロトタイプが作られ、彼らはこの夏の統合に取り組んでいます。そのため、OpenSolarisの次のリリース以降、または開発ブランチをいじくり回したい場合は、それが利用可能になるはずです。
OpenSolarisのZFS(ビルド128a以降)で重複排除が利用可能になりました。
データ重複排除に慣れていない可能性のある人にとって、これはデータがファイル(またはブロック)のレベルで分析され、ファイルシステム全体で同一のファイル/ブロックがより小さなトークンに置き換えられる手法です。これにより、ディスク上の有効サイズが大幅に縮小されます。 copy-on-write の形式と考えることができます。 wiki page を読んでください。
Linuxで、重複除去、ファイル、ブロックレベルを実行するために聞いたファイルシステムはありません。そのような獣はかなりプロセッサ集中型ですが、便利でしょう。
1年後ですが、ここにEBSDと呼ばれるOpenBSDのソリューションがあります: http://www.peereboom.us/epitome/ 。リベラルなライセンスであれば、Linuxカーネルに組み込むことができます。
インライン重複排除を行う、現在取り組んでいるプロジェクトを投稿しました。あなたはそれを見てみることができます ここ あなたが興味を持っているなら。 Fuseをベースにしており、Linux上で動作します。
Linux用のdedupの無料実装については知りません。いくつかのストレージベンダーが、重複排除を行うVTL(仮想ストレージライブラリ)を備えたHSM(階層ストレージ管理)システムの使用を推奨しているのを見てきました。
Occarina のようなシステムを検討することもできます。これは透過的ではありませんが、重複除去よりも優れた結果を提供できます。
重複排除オプションは、LinuxのファイルシステムBTRFSおよびZFSで使用できます。 BTRFSはLinuxでネイティブに開発され、オフラインの重複排除ツールを備えています。私は「オフライン」とは考えていません。fsをマウント解除する必要があります。オフラインとは、アクティブに書き込まれたデータが重複排除されないことを意味します。しかし、後で、重複を排除するためのツールを実行すると、現在保存されていると思います。おそらくツールはベータ版です。他の方法はZFS内です。 Fuseおよびネイティブで使用可能: http://zfsonlinux.org/ 。これはオンラインでの重複排除を実行しますが、残念ながらすべてがオンザフライで計算される必要があるため、書き込みが遅くなります。この動作はオンラインでもオフでも可能です。重複排除をオフにした後も、重複排除されたデータはすべて重複排除されたものとして保存されます。新しい書き込みは「複製」として保存されます。将来そのデータの重複排除を行う場合は、重複排除をオンにして、すべての「複製された」ファイルを書き直す必要があります。
ページにある利用可能なドキュメントを参照してください。書き込みと読み取りを高速化するには、より高速なデバイスをストレージプールに追加します(特にSDDドライブまたはおそらくより高速なフラッシュUSB。デバイスの信頼性に注意してください)。
linuxでの重複排除に関するニュースはありませんか? opendedupを選択することもできますが、Javaが動作するプラットフォームを提供しているので、頭痛がしたくありません。試してみましたが、これはJavaマシンと残りの部分は、ストレージの応答時間と安全性の私のニーズにうまく対応できていません。