今朝、私はオフィスに来て、RAID-6、3ware 9650SEコントローラーの2つのドライブが劣化としてマークされ、アレイを再構築していることを発見しました。約4%に達した後、3番目のドライブでECCエラーが発生しました(これは、このRAIDのファイルシステムにアクセスしようとして、コントローラーからI/Oエラーが発生したときに発生した可能性があります)。今、私はこの状態にあります:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312
u1-6 DISK OK - - p7 - 931.312
u1-7 DISK DEGRADED - - p3 - 931.312
u1-8 DISK WARNING - - p9 - 931.312
u1-9 DISK OK - - p10 - 931.312
u1/v0 Volume - - - - - 7450.5
問題の3つのドライブのSMARTデータを調べると、劣化した2つは正常な状態(Current_Pending_SectorまたはOffline_UncorrectableエラーなしでPASSED)ですが、WARNINGとしてリストされているドライブには24の修正不可能なセクターがあります。
そして、「リビルド」は10時間4%で止まっています。
そう:
実際に再構築を開始するにはどうすればよいですか?この特定のコントローラーは/c2/u1 resume rebuild
をサポートしていないようで、オプションのように見える唯一の再構築コマンドは、追加するディスクを知りたいコマンドです(ヘルプによると/c2/u1 start rebuild disk=<p:-p...> [ignoreECC]
)。サーバーに2つのホットスペアがあり、それらを使用できてうれしいですが、現在の状態でその情報をどのように処理するのかわかりません。
RAID-6に2つの劣化したドライブがある場合、明らかに障害が発生しているドライブ(警告ドライブ)を引き出すことはできますか?最善のシナリオは、WARNINGドライブをプルして、再構築にホットスペアの1つを使用するように指示することだと思います。しかし、2つの劣化したドライブを備えたRAID-6の「正常な」ドライブを引き寄せることで、その問題を強制終了しませんか?
最後に、他の投稿でこのコントローラーの不良バグへの言及を見ました。これにより、良好なドライブが不良としてマークされ、ファームウェアのアップグレードが役立つ場合があります。状況に応じて、ファームウェアのフラッシュは危険な操作ですか?再構築しているが4%でスタックしているRAIDを助けたり、傷つけたりする可能性はありますか?このバグが実際に発生していますか?
スピリチュアル以外のアドバイスをいただければ幸いです。ありがとう。
ドライブをプルしたりシステムを再起動したりせずに、tw_cli
で次のコマンドを発行することで、RAIDを再構築できました。
/c2/u1 set ignoreECC=on
再構築はすぐには進行しませんでしたが、この変更を行った翌朝の午前2時に再構築が開始され、約6時間後に完了しました。 ECCエラーのあるドライブには24個の不良セクタがあり、ドライブによって上書きおよび再割り当てされています(SMARTデータによる))。ファイルシステムは無傷のようですが、私が驚かないでください。これらのセクターのデータにアクセスすると、エラーが発生します。
いずれにせよ、私は以前よりもはるかに良くなっており、データの大部分を回復できる可能性があります。できることを入手したら、故障しているドライブを取り出して、ホットスペアに再構築します。