2x24時間の1秒あたりのディスク転送データを収集したとしましょう。つまり、15秒ごとにデータを瞬時にサンプリングします。データを使用して、たとえばストレージをプロビジョニングする場合、どのような統計分析をサンプルに適用できますか/適用する必要がありますか?
単にピーク値を使用する必要がありますか(1%未満の時間で発生します)?平均値/平均値を使用する必要がありますか?または、平均と偏差を含む式?
大量のIOをプッシュしているときに高いレイテンシーを許容できる種類のワークロードでない限り、常にピークのサイズを設定します。これが、ワイドストライピングが非常に人気がある理由の一部です-総使用量のピークに合わせて多数のワークロードとサイズをまとめることができます-さまざまな部分がさまざまな時間にピークに達するため、より安価なディスクを使用して同じものを提供できます容量。
ワイドストライピングは、これが何らかの集中ストレージ上にあることを前提としています。もちろん、ローカルの場合、その方法でワークロードを集約することはできません。
残念ながら、その質問に対する簡単な答えはありません。まず、あなたのニーズを考えてください。あなたはいくらのお金を喜んで/使うことができますか?どのくらいの冗長性が必要ですか?合計ストレージはどれくらい必要ですか?どのくらいの待ち時間を許容できますか?システムを持続させたい時間(サイズとIOPSの両方)でどのくらいの成長がありますか?サイズを抑えるためにデータを維持および整理する時間はありますか?
私があなたの質問に答えることができる最も近いのは、いつでも瞬間的なIOPSを処理できない場合、単に待ち時間が長くなることに注意することです。レイテンシーが重要でない場合は、平均IOPSの予測される成長に基づいてストレージを購入することから始めるのは悪いことではありません。
注:冗長性はバックアップソリューションではないため、バックアップも計画してください。バックアップは、時間と空間によってライブデータから分離できます(分離する必要があります)。