web-dev-qa-db-ja.com

RAID 5 2ドライブ障害の実際の経験をお探しですか?

大きなドライブでRAID5 2ドライブに障害が発生したという個人的な経験がある人はいないでしょうか。

私が理解しているように、理論では、1〜2 TBの大型ドライブでは、レイドセットで1つのドライブに障害が発生した場合、すべてを再構築する必要があるため、他のすべてのドライブに非常に大きな打撃を与え、別の障害が発生する可能性が高くなります。特にドライブが同じ製造バッチからのものである場合。また、別のドライブを失うと、すべてのデータが失われます。

これは通常、私が同意する「RAIDはバックアップではありません」というステートメントの後に説明されます。

これの理論は理にかなっていて、私はそれを理解していますが、それは本当に起こりますか?

15
Brian

はい、私はそれが私に起こったことがあります。 4台の(消費者向け)WD 500ドライブのセットは、約1週間で故障しました。私は最初のものを交換するのに時間がかかり、アレイをオフラインにせず、2番目が失敗したときにすべてのデータを失いました。残りの2つの良いものを再利用しましたが、そのうちの1つは翌月以内に失敗しました。それらはすべて適切に冷却され、世話をされました。私は今、「悪いバッチ」のレトリックを信じているとしか言えません。

別の事件では、異なるメーカーの3つの別々のドライブがあり、モデルは互いに1か月以内に故障しましたが、故障した理由は不適切な換気が原因であったと確信しています。ドライブを調理しないでください!

15
Paul McMillan

これは実際に私に起こりました、しかし、それはドライブが失敗する最も一般的な方法ではありませんでした。 RAID5には4台の500GB外付けSATAドライブがありました。これらは安価な古いIBMラックマウントサーバーに接続されていました。セットアップ全体が階段の下に隠れていて、ある日、ネズミかバニーのどちらかでしたが、いくつかの電源ケーブルと2台のドライブを噛んで何かがショートしました。すべてのドライブは安価な外部エンクロージャーに入っていたので、それほど驚かなかったはずです。

4
AdamB

2台のドライブを連続して失う可能性があるかどうかを尋ねていますか?確かに、何でも起こり得ます。 RAID 5では、データアクセスの可用性とパフォーマンスが大幅に向上しますが、RAID5は何もバックアップしません。これは、単一ドライブのハードウェアの損失によるデータの使用を防ぐのに役立つだけです。それはあなたのデータのコピーではありません。古いコピー、古いリビジョン、または単に現在の作業のコピーを復元することはできません。また、データの破損から保護しません。単にドライブを失うだけでなく、うまくいかない可能性のあることがたくさんあります。ウイルスはすべてのデータを破壊する可能性があります。妹は、デスクトップのゴミ箱がいっぱいになって空になるのを見るのが好きです。彼女はファイルを投げたり、愚かな友人があなたのマシンにソーダを落としたりします。

また、ハードドライブのレイドコントローラーを失う可能性があることを忘れないでください。また、アレイを別のランダムコントローラーに移動することはできません。通常はまったく同じものを使用する必要がありますが、それでも問題が発生する可能性があります。一部のRAIDコントローラはボード上に情報を保存し、その他は接続されたアレイに構成情報を送信します。このような状況が発生した場合、それはギャンブルです。

SFで同じ質問: https://serverfault.com/questions/2888/why-is-raid-not-a-backup

さらに理由が必要ですか?

編集:あなたの考えは正しく、誰にでも起こり得る。私は個人的に複数のドライブが故障するのを見たことがありませんが、いくつかが本当に近くで死ぬのを見ました。それらのどれも再建のそのウィンドウにいませんでした、しかしそれは技術的に危険です。しかし、何かが正しく起こった場合に備えて、バックアップがありますか?はは。一部の人々は時々これで難しい方法を学びます。 RAID 6は、デュアルパリティを使用して次のレベルに引き上げ、最大2台のドライブを失う可能性があります。 RAIDセットアップでは、アレイのサイズ(ドライブ数)と複雑さとともに障害の可能性が高くなります。ドライブの数が増える=障害が発生する可能性のあるポイントが増える

3
Troggy

確かに、RAID-5シナリオでは、1つのディスクを失ってから再構築すると、システムはRAIDセット内のすべての存続ドライブのすべてのセクターを正常に読み取る必要があります。 NetAppは、状況によっては(ある種の最大28台のドライブのRAIDセットを実行できる)、2回目の障害が発生する確率は最大10分の1になる可能性があると主張しています。したがって、彼らはRAID-6に関連していると私が信じる「デュアルパリティ」を実行します。

明らかに、RAIDセットに含まれるドライブの数が多く、ドライブが大きいほど、問題が発生する可能性が高くなります。小さなRAIDセット(3〜5個のディスク)の場合、RAID-5を使用することに対してオッズはそれほど大きくシフトしていない可能性があります。

しかし、私は常にNetAppで可能な限りRaid-DPを実行しています。

3

個人的な経験はありませんが、私はそれを経験した人々の悲鳴を聞いたことがあります。単一のドライブ、USBキー、テープ、大規模なRAIDインストール、Amazon S3などのストレージシステムは、最終的には最も不便な方法で障害が発生します。 RAID 5セットの再構築中の2番目の障害は、これが発生する可能性のある方法の1つにすぎません。

余談ですが、トリプルパリティRAIDのサポートは OpenSolarisに統合 数日前でした-したがって、少なくとも1つのベンダーは、パリティRAIDの再構築中に2つの追加の障害を許容することはエンジニアリング努力の価値があると考えています。

2
Stephen Veiss

シナリオは次のとおりです。RAID5アレイでドライブに障害が発生しましたが、スペアがすでに存在していたか、新しいハードドライブの注文がついに完了しました。あなた(またはおそらくいくつかのリモートミニオン)は、故障したドライブを交換するために新しいドライブを手に持って行きます。悪いラベル付け、疲れ、または単なる愚かさのために、残りの良いドライブの1つが、障害のあるドライブではなく排出されます...そして2回目の失敗があります。

1
camster342

私はデータ復旧ビジネスにいるので、これを数回見ました。そして、はい、それらは同時に失敗することがよくありますが、これは必ずしもそれらが構築されたときとは何の関係もないと私は信じています。ほとんどの場合、このタイプの障害は、雷雨、電力サージ、または停電の直後に発生します。

通常、サージはドライブまたはRAIDコントローラに損傷を与え、数日以内に障害が発生し始めます。私は実際に、停電後に2台のドライブが同時に故障したアレイの回復に取り組んでいます。 (今は絶望的に見えます)

ちょっとしたヒント:サージプロテクタは実際には機器を保護しません。常にレイド5を適切なUPSに接続してください。アレイがUPS上にあるときにこれが発生するのを見たことがありません。

1
Jared

これは実際に実際に起こります。これが、NetAppストレージソリューションにRAID 6が実装されている理由です。これは、再構築中に2台目のドライブを紛失した場合に備えてです。

次のページにリストされている標準の式を使用して、障害の可能性を計算できます リンクテキスト データドライブの数を増やすと、そのような障害の可能性が高くなります。十分なディスクがある場合、膨大な数のデータボリュームを持つRAID 5を使用している場合は、この数を心配ゾーンにプッシュできます。

個人的な経験から、同じ重要な時間枠内に同じアレイで2つのドライブ障害が発生する可能性があることがわかります。 RAID 6により、バックアップから復元する必要がなくなりました。

お役に立てれば

1
Axxmasterr

単一パリティセットから2番目の適切なドライブを誤って引き出しても、適切なRAID実装でアレイが破壊されることはありません。 ZFS RAID-Zは、再びオンラインになるまで、アレイ上のすべてのI/Oをフリーズすることを知っています。

1
Sfynx

別のシナリオ:リモートミニオンは、テープドライブからバックアップテープをフェッチするように命令されます。彼女はラックに行き、テープドライブからテープを引き出しません...しかし、2台のHDDが同時にドライブベイから出て、出来上がり:2台のドライブ障害。

あなたはこれがはるかにフェッチされていると思いますか?さて、私は今まさにそれをした顧客にいて、今サーバーの再構築を検討しています。

彼女は実際にテープドライブにあったテープなどを燃やしませんでした;-)

0
Mathias