RAID5 2ディスク障害-実行する手順は？

Question

Gentooサーバーに6ディスクのRAID5アレイがあります。 mdadmは、2つのディスクに障害が発生したことを報告しています。ディスクが実際になくなった場合は、ドライブを専門家に送ってリカバリする準備をしますが、必要がない限り、その必要はありません。自分でリカバリを試みたくありません。彼らにとってより困難な生活。とはいえ、アレイを元に戻して自分で実行できるのであれば、そうしたいと思います。

1）データ損失のリスクを減らすために、すぐにどのような手順を実行する必要がありますか？

2）ドライブが実際に故障しているか、誤って故障としてマークされたばかりかを判断する最良の方法は何ですか？

3）マシンを再起動したり、アレイを自分で再構築しようとしたりするリスクはありますか？

womble · Answer

これが「バックアップ感謝週間」（またはそれが呼ばれるもの）の直後に行われるべきであるというのは、どれほど適切か。

自分で何かをしようとすることの問題は、ドライブを実行しているときはいつでも、ドライブの劣化の量が増えることです。決定今それをプロに送るつもりなら、もしそうなら、それをしてください。おそらく、このデータが数千ドルを費やして回復するのに十分重要である場合、それはおそらく後でではなく早く欲しいものなので、今すぐ送信してください。

ああ、そしてバックアップ。適切なバックアップを作成します。 RAIDはバックアップではありません。RAID5は、ドライブのサイズ（したがって、大規模なアレイの再構築に必要な時間）を考えると、最近では冗長性としてほとんど考慮されません。

pplrppl · Answer

簡単な回答：データを保持してバックアップから復元できる非RAID5アレイを構築します。

バックアップがない場合「You'reDoingitWrong」

より長いバージョン：

RAID 10を検討してください。スペースが懸念される場合は、ディスクを追加購入して、コントローラーがサポートしている場合はRAID 6に進むか、さらにディスクを購入してRAID10を実行してください。 RAIDアレイを構築してから、最後のバックアップからデータを復元します。

geoffc · Answer

泣く。これは2週間に2回発生しました。私たちのACユニットはフリッツにあり、温度モニターはそれについて報告しませんでした。熱は私たちのドライブの多くを殺しました。

面白いことに、私たちの新しいデータセンターは拡張の準備をしていました。楽しい施設グループは、心配はいりません。容量の46％で稼働していると言いました。

その後、ACユニットのサイズが2倍間違って書き留められていて、実際には容量の97％であることがわかりました。おっと。

次に、AC容量に大量のバッファスペースがあると考えて、新しいサーバーのスタック全体を追加しました。

したがって、18か月かかる予定だった、AC用のより大きなコンプレッサーを入手するために必要だったため、数か月間熱の問題が発生しました。

世界の他に何が新しいのですか？

fencepost · Answer

RAID Reconstructor を使用すると、有用な情報が見つかる場合があります。これは読み取り専用であり、ドライブをスキャンして、ドライブの状態を判断します。明らかに、RAIDコントローラーを介さずに、ドライブを別のシステムに接続できる必要があります。ドライブを評価してもコストはかかりません。

rob · Answer

wombleの答えは最悪のシナリオをカバーしていますが、ディスクの一方または両方が完全に正常である可能性は十分にあります。自分でデータを回復したい場合は、失敗したドライブの1つだけを使用して回復を試み、最終的にRAID5全体をデータ回復会社に送る必要がある場合に備えてもう1つのドライブを取っておくことをお勧めします。。

安価なSATAカードの場合、1つだけが故障していても、RAID5から2つのドライブを一度に失うことは珍しくありません。また、どちらのドライブも不良ではなく、RAID5障害の原因を確実に特定できなかったことが2回ありました。 RAID1構成ではより大きなドライブに切り替えており、raidz2またはraidz3でZFSへの切り替えを検討しています。

他の誰かが述べたように、回復サービスは故障したドライブだけからデータを回復することはできません。 RAID5からすべてのディスクを送信する必要があります。

さまざまなレベルの障害があることに注意する必要があります。ヘッドのクラッシュによる深刻な物理的損傷がある場合、唯一の希望はリカバリサービスにありますが、データが失われる可能性があります。

すべてのドライブをデータ復旧サービスに送信するコストを正当化できない場合は、ddまたはdd_rescueを使用してドライブの内容を適切なドライブに複製し、RAIDを再構築するときに障害が発生したドライブに対して追加の診断を実行できる場合があります。完全バックアップを実行します。残念ながら、チェックサムの最近のリストまたはそれらを比較するための既存のバックアップがない限り、ファイルに問題がないか、ファイルが破損しているかを判断できない場合があります。

セクター0が不良であると判断できる場合（通常、電源投入後に繰り返しクリックすることで示されます）、運が悪いことになります。 Ontrack回復エージェントは、セクター0に書き込むことができる必要があるため、送信したドライブからデータを回復できないと言っていました。セクター0が不良であると私が判断する前に、私は少し不機嫌でした。ドライブを送り込みましたが、Ontrackはその機能に前向きではありませんでした。

システムログを確認するか、（ smartmontools パッケージから）smartctlを使用してSMARTドライブに保存されている診断情報。smartmontoolsが良好なドライブ状態を報告し、再割り当てされたセクターがない場合（「再割り当てされたセクター数」の下）、ドライブは正常である可能性があり、RAIDを再組み立てしてバックアップしてみることができます。

将来的には、raidz2またはraidz3でZFSを使用してOpenSolarisボックスを設定することも検討してください。これらはそれぞれ、ダブルまたはトリプルパリティを提供し、データを失う前に2（raidz2）または3（raidz3）ドライブを失うことを可能にします。さらに、ZFSはすべてのチェックサムをチェックするため、他の単一ディスクまたはRAID構成の場合のように、ファイルシステムがデータのサイレント破損を起こしにくくなります。

最初の故障したディスクを交換して再構築している最中も冗長性があるため、どのRAID構成でも少なくとも2倍のパリティを持つことが望ましいです。（もちろん、最初に故障したディスクを交換する前に、2つのディスクが故障するまで待つべきではありません。）

joeqwerty · Answer

データ損失のリスクを減らしますか？それにはおそらく手遅れです。

マシンを起動するリスクに関する限り、RAIDアレイが本当に死んでいる場合、マシンを再起動しても状況が悪化することはありません。当初の見た目ほど悪くなく、サーバーが起動し、RAIDアレイとそのデータにアクセスできる場合は、できるだけ早く完全バックアップを実行し、サーバー/ストレージベンダーに連絡して状況に関する情報を入手することをお勧めします。

Daniel Lawson · Answer

おそらくドライブはすでに発送済みですが、とにかく質問します。どのブランドおよびモデルのディスクを使用していますか？

RE（Raid Edition）モデルではないWestern Digitalドライブには癖があり、ドライブが実際にまだ損傷していない場合でも、RAIDコントローラーがアレイからそれらをスローする傾向があることを質問します。

WDC RE ページから：「RAID固有の時間制限エラーリカバリ（TLER）-デスクトップドライブに共通の拡張ハードドライブエラーリカバリプロセスによって引き起こされるドライブフォールアウトを防止します。」

基本的に、ドライブに何らかの内部エラー（データに関して必ずしも致命的なエラーではない）がある場合、非REドライブは結果を返す前にそれを処理するのに長い時間を費やす可能性があります。多くのRAIDコントローラーは、ドライブが応答するのに時間がかかりすぎることを認識し、不良とマークします。 REドライブのTLERの「機能」は、基本的に、タイムアウトをRAIDカードが許容できるレベルまで下げます。

なぜこれがWDCに固有のように見えるのかわかりません。他のメーカーのデスクトップバリアントで同じ問題が発生したことはありません。私は間違いなく、WDCデスクトップドライブがアレイからランダムにスローされるという問題を抱えている他の人たちを見聞きしましたが、テストと再構築はうまくいきました。

ドライブがWDCデスクトップドライブである場合、これが障害の原因である可能性が高く、データが損なわれていないことを意味します。もちろん、これではデータを簡単に取り戻すことはできません:)