web-dev-qa-db-ja.com

HP EVA4000のスペアレベル

EVA4000のディスクの1つが本日死亡しました。このディスクグループ(スペアレベル1のすべてのボリュームvraid5で、追加のボリューム用のスペースがほとんど残っていない、1TiBドライブ)は現在「スペアスペース」で再構築されており、レベリング/再構築には少なくとも15時間かかります。

金曜日まで新しいディスクを入手できません。したがって、問題は、レベリングが完了する前に別のディスクが停止した場合はどうなるかということです。データが失われますか?その後、データが失われる前に、追加のディスクがいくつ死ぬ可能性がありますか? 1または2?

「通常の」RAIDでは、再構築の実行中にデータが失われる可能性がありますが、この場合、スペアリング用に予約されているスペースは、大きい方のディスクのサイズの2倍です。したがって、少なくとも2つのスペアがある場合と同じ効果が得られるはずです。

前もって感謝します。

更新:この質問についていくつかの興味深いスレッドを見つけましたが、それでもこの質問に答えることができないので、賞金を始めています。

http://blog.thestoragearchitect.com/2008/10/27/understanding-eva/

http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&url=http%3A%2F%2Fwww.experts-exchange.com%2FStorage%2FStorage_Technology%2FQ_25548177。 html (グーグルからの専門家交換の質問)。

5
Samuel

短縮版

レベリングは、再構築後のプロセスです。アレイがレベリングしている場合は、ディスクに障害が発生する前と同じように安全です。

ロングバージョン

ディスクを紛失すると、EVAは残りの正常なディスクのスペースを自動的に使用して、そのディスクにあったデータの冗長コピーを作成しようとします。 Vraid5パリティを備えた1つの大きな仮想ディスクを持つ1つのボリュームグループがあり、1つのディスクを失った場合、EVAは、障害が発生したディスクにあったデータを最初のディスクの空き領域に再生成します。十分なスペースがない場合は、2、3、またはそれ以上のディスクを使用しますが、可能な限り短い時間でデータの冗長コピーを取得します。それにはどれくらい時間がかかりますか、私には言えません。しかし、非常に短時間で「ディスクを失う可能性があり、データを失うことはない」状態に戻ります。つまり、もちろん、ディスクに十分な空き容量がある場合です。

あなたはスペアリングについて言及しました。私はこの用語に精通していませんが、EVAが次のような緊急事態のために予約するスペースである「障害保護レベル」について話していることを願っていますあなたが説明しているもの。単一の保護レベルは、最大の2つのディスクのサイズを予約し、2倍のサイズ(4つのディスクのサイズ)を予約することを意味します。 EVAは、このスペースを空きとして報告しません。したがって、単一の保護レベルがあり、16個の1TBディスクで95%を使用している場合、2TBが予約され、残りの14TBの95%のみを使用します。これは、13.3TBが使用され、2.7TBが無料です。また、Vraid5を考慮に入れると、10.64TBの使用可能スペースと2.66TBのパリティの無駄になります。

EVAが可能な限り少ないディスクに冗長コピーを作成すると、データの平準化(個人的には「バランシング」と呼びます)を開始します。このプロセスでは、データを移動して、すべてのディスクが最終的にほぼ同じ量のデータになるようにします。このプロセスは、特に使用率が非常に高い場合は非常に長い時間がかかりますが、この時点で別の障害が発生した場合は安全です。

コマンドビューに移動して、ボリュームグループのステータスを確認します。それが平準化されていると言っている場合-あなたは失敗前と同じくらい安全です。

これで、rawディスク容量が15 TBになり、13.3TBを使用しています。 EVAは単一の保護レベルを維持したいのですが、2TBを予約することはできません(未使用は1.7TBしかない)ので、おそらく要求された保護レベルをsingle、およびactual保護レベルnone。また、13.3TBを使用しており、単一の保護要件を満たすには、13TB未満である必要があるため(合計15TB-2TBは単一の保護用に予約されています)、使用量が100%を超えていると報告している場合もあります。

これは、別のディスクを失う可能性があり、正常なストレージが残っていることを意味します。 2番目のディスクを失う可能性があり、データを保護するのはVraid5の冗長性になります(ただし、パフォーマンスが低下する場合があります)。そしてもちろん、運が良ければ、同じVraidストライプにない限り、3番目と4番目のディスク障害に耐えることができます(EVAのVraid5はRAID5 + 0に似ており、ストライプは5つのディスクにまたがっています)。

更新:質問とは関係ありませんが、最新の FATAファームウェア更新 には「発生する可能性のある自己開始リセットの修正」がありますまれな状況下で」。私を信じてください、理由もなくディスクがボリュームグループから投げ出されるのを見るのはいい気分ではありません。

更新2:単一の保護レベルは2つのディスクのスペースを意味するため更新されました。

8
chutz

私はMSA4400で同様の経験をしました。95%の容量で実行し続けましたが、月に9回のドライブ障害が発生し始めたので、データ損失の不規則なエッジの災害についてはある程度知っています。

データの損失を防ぐことができるスクラッチスペースにはいくつかのレベルがあり、現在どのレベルにいるのかを判断するのは困難です。明らかに、予備のスペースは大きなものです。また、使用するvraidのレベルも影響します。また、そのドライブを交換した場合でも、再構築する必要があります。

注意する必要がある主なことは、プールの障害保護レベルです。要求されたレベル(doubleなど)を設定し、それを実際のレベル(singleまたはnoneなど)と比較できます。とはいえ、1台のドライブに障害が発生して2倍からゼロになったとしても(このボックスで最も嫌いなことの1つは、それが可能になることです)、アレイがvraidまたは他の黒魔術。

4
Basil

HP EVAの場合:
レベル1 =構成された最大のドライブのうち2つの容量は、スペア用に予約されています

つまり、2つのディスクを失うと、スペアがなくなり、RAID5パリティのみに依存します。現在の状況では、アレイの劣化なしでさらに1つのディスクを失う可能性があり、データを失うことなくさらに2つのディスクを失う可能性がありますが、パフォーマンスは低下します。私たちの組織では、エンクロージャーの外側に常に2つのスペアディスクがあり、同じ温度に保たれています(したがって、挿入前に焼き戻しは必要ありません)。

1
fireto