100TBのレポートデータベースセットアップの「エンベロープのバック」計算に取り組んでいます。ここで専門家の意見を募集しています。提案された環境:
質問:
環境の詳細をすべて持っているわけではありません。正確な詳細を探すのではなく、概算で十分です。いくつかの質問はマネージャーが最もよく回答するかもしれませんが、管理者の観点に興味があります。私はあなたの入力に感謝します。
第一印象
パフォーマンス要件に応じて、100TBはかなり積極的なデータ量です。 Oracleが必要な場合は、Exadataシステムをチェックアウトする必要があります。また、NetezzaまたはTeradataの製品もご覧ください。その大量の選択により、OLAPベースのフロントエンド、または少なくともかなり積極的なマテリアライズドビューの使用とクエリの書き換えを確認することができます。1秒あたり500テーブルスキャンは取得できません。何でも。
レイテンシ要件がそれほど厳しくないものについては、ユーザーコミュニティにレポート機能を提供するために、より多くのデータマートを検討することをお勧めします。この場合、SQLサーバーとSSASがデータマートのオプションになる可能性があります。これは、多数のサーバーでのライセンスがOracleで同じことを行うよりも安価になるためです。
(1)を参照してください。共有ディスクアーキテクチャ上の従来のハードウェアは、このサイズのデータセットでは低速になる可能性があります。
NO!誰かがNFSを提案したら、彼らに良い蹴りを与える。直接接続ストレージまたは複数のコントローラーSAN多くのミッドレンジコントローラーを使用。多くの場合、数ダースのMD3000シリーズコントローラーまたは類似のものについて考えてください。専用の「ビッグデータ」プラットフォーム。
PB範囲のデータウェアハウスプラットフォームの経験を持つストレージスペシャリストを取得してください。おそらく、重要なETL開発ジョブと、厳しいSLAを満たす必要がある場合は、多くのテスト作業を行うことになります。
データウェアハウスでの24時間365日の対応は、最善の場合でも野心的です。これは運用レポートプラットフォームですか?おそらく、要件について少し詳しく説明するかもしれません。
括約筋は圧倒的に高価であり、パフォーマンス要件に依存します。最後に(数年前に)見たNetezzaは、TwinFinシステムに$ 20,000/TBを見積もり、100TBにプラットフォームを200万ドルに加え、冗長サーバーとバックアップハードウェアのコストを使用していました。 Exadataは少し安いと思いますが、価格はありません。
比較のためにNetezza、Exadata、Teradataプラットフォーム、およびETLツールとしてのAb Initioのコストを見てください。
これはかなり積極的な一連の要件です。データウェアハウスでの24時間365日は通常は行われず、データボリュームは「ビッグデータ」プラットフォームの領域に入るのに十分な大きさです。運用レポート要件がある場合は、それが何であるかを注意深く検討する必要があります。特定の理由(例:低レイテンシの市場データフィード)がない場合を除き、分析とは別にしてください。同じプラットフォーム上で運用要件と分析要件を混在させることは悪いモジョです。
あなたは本当にあなたの要件を評価するために専門家を取得する必要があると思います。あなたが達成しようとしていることを詳しく見ていないと、私ができることは何をすべきか、またはすべきでないかについての経験的な提案です。
このような大量のデータを処理するときに考慮すべきその他のオプションには、次のものがあります。
どこにでもハードウェアコストを節約するつもりはありません。このような仕様のシステムでは、多額の費用がかかります。