免責事項はい私はあなたに私のためにシステムを設計するように頼んでいます:)
私は、約10 TB /日、保持期間180日)を保存するシステムを設計する必要があります。
私の最初のアプローチは、GlusterFSを使用して、次のようなHWセットアップを使用することです。
シングルNode:
データを保持できるネットストレージ(ローカルディスクでのレプリケーションやRAIDなし)を取得するには、9つのノードが必要です。
長所:
短所:
実際の優先方向はありません。GlusterFSを使用した経験があります。4TBシステム(分散、複製、4ノード))がすでにGlusterFSを使用しています。
このセットアップがHadoop/Gluster/Netapp/EMC/Hitachi/EveryoneElseを実行するかどうかに大きな違いはないと確信していますが、ユースケースは(drumroll)です:
ls -ltr | grep 'something' | xargs grep somethingelse
はい、それは怖いです。私は人々にそのデータに対して実際に分析ジョブを実行するように説得しようとしましたが、それは起こらないようです。 (OK、それほど悪くはありませんが、それらの人々は、いくつかの「分析」システムで単純なsshセッションを使用して、手動でいくつかのディレクトリに移動し、いくつかのファイルを再帰的に調べて、データがどこにあるかを判断しますOKかどうか、私が書いた今はさらに悪いように聞こえます)
私はどんなアイデアにもオープンです。社内で「大容量ストレージ」を実行している人がいます(たとえば、1つのバックアップシステムには2PBがあります)。すでに機能しているものは何でも使用したいと思います。しかし、私は彼らが正しいことをしていることも証明する必要があります(これは政治的なことだと聞かないでください。私のデータをストレージチームに信頼します。なぜ私が仕事を複製しなければならないのかわかりません)
データに対して実際に分析を実行する方法の問題について考えることは、明らかに範囲外です。
数え切れないほどの会議があり、Splunkから社内で開発された分析ジョブ(Map/Reduceシステムの有無にかかわらず)まですべてを取り上げました。それに興味はありません。人々が気にするのは:
さて、あなたは予算について言及しませんでした...だから今これを購入してください。その規模のデータは、おそらくその分野での経験を持つチームの手に委ねられるべきです。サポートがあり、誰かが怒鳴るのはいいことです:)
http://www.racktopsystems.com/products/brickstor-superscalar/
http://www.racktopsystems.com/products/brickstor-superscalar/tech-specs/
4 x Storage Heads BrickStor Foundation Units
10 x BrickStor Bricks (36 x 3.5″ Bay JBOD)
2 x 16-port SAS switch
1 x pullout rackmount KVM
1 x 48U Rack
1 x 10Gb Network Switch (24 x 10Gb non-Blocking)
NexentaStor Plug-ins:VMDC, WORM, HA-cluster or Simple-HA
Onsite installation 5-days
24/7/365 day email and phone support
Onsite Support
あなたが説明するアプリケーションは実際にはクラスター化されたストレージの領域にないように思われるので(ユースケースを考えると)、ZFSを使用してください。 無限のスケーラビリティが得られます。圧縮の一部をストレージシステムにオフロードする機会があり、それについてすべての友達に伝えることができます:)
それ以上に、L2ARCキャッシング(SSDを使用)は、SSD速度での分析にホットデータを利用できるようにします。
編集:別のZFSベースのソリューション- http://www.aberdeeninc.com/abcatg/petarack.htm
また、RedHatは現在スケールアウトストレージ業界に属しています。
参照: http://www.redhat.com/products/storage/storage-software/
MDMarraがこれにはSplunkが必要だと言っているように、私は大規模なユーザーでありファンです。あなたが話しているのと非常によく似たボリュームで、すぐにその量のストレージの近くで購入する必要がなくなり、すべての複雑さが軽減されます。 1つのまともなサイズのサーバー(おそらく最大150〜200 TB)は、Splunkと一緒に使用すれば機能します。オンザフライのインデックス作成はこの種のことには最適であり、検索機能は自分で管理するものをはるかに上回ります。もちろん無料ではありませんが、他には何も考えていません。