CentOSを実行するDell PowerEdge T410サーバーがあり、5つのSeagate Barracuda 3を含むRAID-5アレイを使用していますTB SATAディスク。昨日、システムがクラッシュしました(正確にはわかりません。ログがあります)。
RAIDコントローラのBIOSを起動すると、5つのディスクのうち、ディスク1には「欠落」、ディスク3には「劣化」というラベルが付いていることがわかりました。ディスク3を強制的にバックアップし、ディスク1を新しいハードドライブ(同じサイズ)に交換しました。 BIOSがこれを検出し、ディスク1の再構築を開始しましたが、%1でスタックしました。回転する進行状況インジケーターは一晩中動揺しませんでした。完全に凍結。
ここに私のオプションは何ですか?専門的なデータ復旧サービスを使用する以外に、再構築を試みる方法はありますか?このように2台のハードドライブが同時に故障するのはなぜですか。非常に偶然のようです。ディスク1が故障し、その結果ディスク3が「同期しなくなった」可能性はありますか?その場合、「同期」させるために使用できるユーティリティはありますか?
badの回答を受け入れた後、私は異端者の意見(そのような配列をすでに何度も保存している)に本当に残念です。
second障害のあるディスクには、おそらく小さな問題があり、おそらくブロックの障害です。これが原因ですbad raid5ファームウェアのbad同期ツールがクラッシュした理由です。
低レベルのディスク複製ツール(たとえばgddrescueはおそらく非常に便利です)でセクターレベルのコピーを簡単に作成し、このディスクを新しいdisk3として使用できます。この場合、アレイは軽微なデータ破損で生き残りました。
申し訳ありませんが、この場合の正解の本質は次のとおりです。「raid5での複数の失敗、これが黙示録です!」
非常に優れた冗長なRAIDが必要な場合は、LinuxのソフトウェアRAIDを使用してください。たとえば、レイドスーパーブロックのデータレイアウトは公開されており、文書化されています...申し訳ありませんが、これは異端的な意見です。
二重ディスク障害が発生しています。これは、データがなくなったことを意味し、バックアップから復元する必要があります。これが、大容量ディスクでRAID 5を使用することを想定していない理由です。 RAIDをセットアップして、特に大容量の低速ディスクで2つのディスク障害に常に耐えられるようにする必要があります。
オプションは次のとおりです。
他のユーザーが指定した理由により、同時障害が発生する可能性があります。もう1つの可能性は、ディスクの1つが少し前に故障しており、アクティブにチェックしていないことです。
監視が、低下モードで実行されているRAIDボリュームを迅速に取得することを確認してください。多分あなたは選択肢を得なかったかもしれませんが、BIOSからこれらのことを学ぶ必要があるのは決して良くありません。
スレッドは古いですが、を読んでいる場合は、RAIDアレイでドライブに障害が発生したときを理解し、ドライブの古さを確認してください。 RAIDアレイに複数のディスクがあり、それらが4〜5年以上経過している場合、別のドライブが故障する可能性が高くなります。 ***続行する前に、画像またはバックアップを作成してください**。バックアップがあると思われる場合は、それをテストして、読み取りおよび復元ができることを確認してください。
理由は、何時間もフルスピードで回転している残りのドライブに、通常の摩耗と損傷を何年もかけているということです。 6年前のドライブの数が多いほど、別のドライブがストレスで故障する可能性が高くなります。 RAID5でアレイをブローする場合は、バックアップがありますが、2 TBのディスクの復元には、RAIDコントローラとその他のハードウェアの種類によっては8〜36時間かかります。
すべてのドライブが古い場合、私たちは定期的に本番サーバーのRAIDハイブ全体を交換します。 1つのドライブを交換するのに時間を無駄にして、次のドライブが1日、1週間、1か月、または2か月で故障するまで待つのはなぜですか。ドライブと同じくらい安上がりですが、ダウンタイムの価値はありません。
「2台のハードドライブがどうしてそのように同時に故障するのでしょうか?」正確には、私は この記事 から引用したいと思います:
議論の核心はこれです。ディスクドライブがますます大きく(2年間で約2倍)なるにつれて、URE(回復不能な読み取りエラー)は同じ速度で改善されていません。 UREは、回復不能な読み取りエラーの発生頻度を測定し、通常は読み取りビットあたりのエラー数で測定されます。たとえば、UREレートが1E-14(10 ^ -14)の場合、統計的に、1E14ビットの読み取り(1E14ビット= 1.25E13バイトまたは約12TB)ごとに1回、回復不能な読み取りエラーが発生します。
...
議論は、ディスク容量が増加し、UREレートが同じレートで向上しない場合、RAID5再構築障害の可能性が時間とともに増加するということです。統計的には、2009年には、ディスク容量が十分に大きくなったため、意味のあるアレイにRAID5を使用しても意味がなくなったことを示しています。
そのため、RAID5は2009年には安全ではありませんでした。RAID6も間もなくリリースされます。 RAID1については、3枚のディスクから作り始めました。 4ディスクのRAID10も不安定です。
通常、評判の良いリセラーからドライブをまとめて購入する場合、ドライブが異なるバッチからのものであることを要求できます。これは、上記の理由から重要です。次に、これがまさにRAID 1 + 0が存在する理由です。 RAID 1 + 0で6台のドライブを使用していた場合、ボリュームの再構築が不要な9TBのデータがすぐに冗長化されます。