web-dev-qa-db-ja.com

3Ware 9650SE RAID-6、2つの劣化したドライブ、1つのECC、再構築がスタック

今朝、私はオフィスに来て、RAID-6、3ware 9650SEコントローラーの2つのドライブが劣化としてマークされ、アレイを再構築していることを発見しました。約4%に達した後、3番目のドライブでECCエラーが発生しました(これは、このRAIDのファイルシステムにアクセスしようとして、コントローラーからI/Oエラーが発生したときに発生した可能性があります)。今、私はこの状態にあります:

> /c2/u1 show

Unit     UnitType  Status         %RCmpl  %V/I/M  Port  Stripe  Size(GB)
------------------------------------------------------------------------
u1       RAID-6    REBUILDING     4%(A)   -       -     64K     7450.5    
u1-0     DISK      OK             -       -       p5    -       931.312   
u1-1     DISK      OK             -       -       p2    -       931.312   
u1-2     DISK      OK             -       -       p1    -       931.312   
u1-3     DISK      OK             -       -       p4    -       931.312   
u1-4     DISK      OK             -       -       p11   -       931.312   
u1-5     DISK      DEGRADED       -       -       p6    -       931.312   
u1-6     DISK      OK             -       -       p7    -       931.312   
u1-7     DISK      DEGRADED       -       -       p3    -       931.312   
u1-8     DISK      WARNING        -       -       p9    -       931.312   
u1-9     DISK      OK             -       -       p10   -       931.312   
u1/v0    Volume    -              -       -       -     -       7450.5    

問題の3つのドライブのSMARTデータを調べると、劣化した2つは正常な状態(Current_Pending_SectorまたはOffline_UncorrectableエラーなしでPASSED)ですが、WARNINGとしてリストされているドライブには24の修正不可能なセクターがあります。

そして、「リビルド」は10時間4%で止まっています。

そう:

実際に再構築を開始するにはどうすればよいですか?この特定のコントローラーは/c2/u1 resume rebuildをサポートしていないようで、オプションのように見える唯一の再構築コマンドは、追加するディスクを知りたいコマンドです(ヘルプによると/c2/u1 start rebuild disk=<p:-p...> [ignoreECC])。サーバーに2つのホットスペアがあり、それらを使用できてうれしいですが、現在の状態でその情報をどのように処理するのかわかりません。

RAID-6に2つの劣化したドライブがある場合、明らかに障害が発生しているドライブ(警告ドライブ)を引き出すことはできますか?最善のシナリオは、WARNINGドライブをプルして、再構築にホットスペアの1つを使用するように指示することだと思います。しかし、2つの劣化したドライブを備えたRAID-6の「正常な」ドライブを引き寄せることで、その問題を強制終了しませんか?

最後に、他の投稿でこのコントローラーの不良バグへの言及を見ました。これにより、良好なドライブが不良としてマークされ、ファームウェアのアップグレードが役立つ場合があります。状況に応じて、ファームウェアのフラッシュは危険な操作ですか?再構築しているが4%でスタックしているRAIDを助けたり、傷つけたりする可能性はありますか?このバグが実際に発生していますか?

スピリチュアル以外のアドバイスをいただければ幸いです。ありがとう。

5
cswingle

ドライブをプルしたりシステムを再起動したりせずに、tw_cliで次のコマンドを発行することで、RAIDを再構築できました。

/c2/u1 set ignoreECC=on

再構築はすぐには進行しませんでしたが、この変更を行った翌朝の午前2時に再構築が開始され、約6時間後に完了しました。 ECCエラーのあるドライブには24個の不良セクタがあり、ドライブによって上書きおよび再割り当てされています(SMARTデータによる))。ファイルシステムは無傷のようですが、私が驚かないでください。これらのセクターのデータにアクセスすると、エラーが発生します。

いずれにせよ、私は以前よりもはるかに良くなっており、データの大部分を回復できる可能性があります。できることを入手したら、故障しているドライブを取り出して、ホットスペアに再構築します。

5
cswingle