web-dev-qa-db-ja.com

劣化したRAID5アレイで、ディスクにOKのマークを付けるのは安全ですか?

Intel Matrix Storage Console 8.9は、1つのディスク障害を伴う劣化したアレイを示しました。それでも、ディスクをOKとしてマークし、アレイを再構築するオプションを提供しますか?これを行うのはいつ適切ですか?ディスク障害を誤って評価していませんか?なぜこのオプションを提供するのですか?

これはテストサーバーであり、バックアップがあるので、それほど心配する必要はなく、ディスクをOKとしてマークしようとしましたが、それ以上の問題を示すことなくボリュームを再構築しました。しかし、とにかく問題はありますか?

さらに...

素晴らしい応答は、ディスクをテストするための最良の方法は何であるか、私に不思議に思います。 SMARTテストについては以下で説明します。おそらくドライブを取り外し、新しいドライブで再構築します。

この既存のドライブですでに発生しているように、ボリュームが再構築でき、エラーが表示されないかどうかはまだわかりません。

4
datatoo

ドライブは、さまざまな理由でアレイ内で障害が発生したとマークされる可能性があります。たぶん、いくつかの欠陥のあるセクターがあります。たぶん、ドライブヘッドが故障しています。宇宙線がドライブに直角に当たってスキャンに失敗するかもしれません。たぶん、彼らのファームウェアには、の下で壊れるバグがあります。

これらのいくつかは修復可能な障害であり、いくつかはそうではありません。

問題は、ハードドライブの障害を予測するのは本当に難しいということです。 Googleの悪名高い論文 SMARTは、警告が表示された場合、そうでない場合よりもドライブが故障する可能性が高いという点でのみ有用であることがわかりました。故障したドライブには、致命的かどうかにかかわらず、SMARTエラーはありませんでした。したがって、SMARTスキャンの完全なスイートを実行し、何も見つからず、自分よりも多くのことを知ることができます今。

しかし、これが突然の障害であり、I-did-something-funny-and-it-failedの障害ではないと仮定すると、すでにディスクに問題があることを示しています。今、それは価値の問題です。

  • 別のドライブの費用はいくらですか?
  • このサーバーが停止した場合、ユーザーにとってどのくらいの時間が失われますか?
  • このサーバーが停止した場合、どのくらいの時間が失われますか?
  • その時間の価値はいくらですか?
  • この値を2倍にして、機会費用を(単純に)説明します

ドライブを故障させる価値のある状況にあったことは一度もありません。なぜ痛みを経験するのですか?たぶん、あなたが必要とするドライブはかなり安いです。購入して先に進んでください。

10
sh-beta

私はかつて、アレイ内の14個のディスクの1つである古いU160SCSIアレイで障害のあるキャディを持っていました。キャディを交換したとき(ディスクは問題ありませんでした)、ディスクのシリアル番号が同じであるため、まだ失敗したと思っていました。

そこで、OKとマークし、アレイを再構築しました。コミッションを解除するまでは、すべて問題ありませんでした。

それはすべてあなたの状況に依存しますが、私がそれがOKであると100%確信しない限り、通常私はディスクをOKとしてマークすることは決してありません。 99.9%確実であっても、配列を削除してやり直します。

2
Mark Henderson

データが気になる場合は、すぐにドライブを新しいものと交換し、アレイを再構築してください。次に、取り外したドライブで広範なテストを実行し、合格した場合に使用できるように再認定します。ただし、故障したドライブを所定の位置に再構築しようとすると、再構築プロセス中または再構築プロセス後に問題が発生した場合に、ダブルドライブ障害に対して脆弱である時間が延長されます。

2
David Schwartz

ドライブが故障した理由に完全に依存します。場合によっては、コントローラーにderpの瞬間があり、ドライブを検出しなかったために、安価なRAIDカードを使用して起動時に完全に正常なディスクが失敗することがありました。これは非常にまれですが、ドライブで一連のSMARTテストを実行し、ドライブ全体をDDでワイプすることにより、完全なbadblocksテストを実行しました。その特定のドライブはすべての標準で問題ありませんでした。そして、Linearやraid0ではなくraid5を実行していたので、それをアレイに再度追加しました。

Linuxリカバリディスクなどを使用してSMARTテストを実行し、不良ブロック数を記録し、完全なSMARTテストを実行してから、不良ブロック数を確認します繰り返しますが、20を超えるスパイクが発生した場合、私はそれを信頼しません。不良ブロックがそのドライブサイズ/メーカーに対して特に高い場合も同様です。

リスクは、ドライブが完全に故障するだけでなく、時間の経過とともにデータが破損する可能性があることです。

このドライブの「smartctl-a/dev/hda」の読み取り値を、元の質問のおかげで含めることもできますか。

0
Silverfire