3Ware 9650SE RAID-6、2つの劣化したドライブ、1つのECC、再構築がスタック

Question

今朝、私はオフィスに来て、RAID-6、3ware 9650SEコントローラーの2つのドライブが劣化としてマークされ、アレイを再構築していることを発見しました。約4％に達した後、3番目のドライブでECCエラーが発生しました（これは、このRAIDのファイルシステムにアクセスしようとして、コントローラーからI/Oエラーが発生したときに発生した可能性があります）。今、私はこの状態にあります：

> /c2/u1 show Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB) ------------------------------------------------------------------------ u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5 u1-0 DISK OK - - p5 - 931.312 u1-1 DISK OK - - p2 - 931.312 u1-2 DISK OK - - p1 - 931.312 u1-3 DISK OK - - p4 - 931.312 u1-4 DISK OK - - p11 - 931.312 u1-5 DISK DEGRADED - - p6 - 931.312 u1-6 DISK OK - - p7 - 931.312 u1-7 DISK DEGRADED - - p3 - 931.312 u1-8 DISK WARNING - - p9 - 931.312 u1-9 DISK OK - - p10 - 931.312 u1/v0 Volume - - - - - 7450.5

問題の3つのドライブのSMARTデータを調べると、劣化した2つは正常な状態（Current_Pending_SectorまたはOffline_UncorrectableエラーなしでPASSED）ですが、WARNINGとしてリストされているドライブには24の修正不可能なセクターがあります。

そして、「リビルド」は10時間4％で止まっています。

そう：

実際に再構築を開始するにはどうすればよいですか？この特定のコントローラーは/c2/u1 resume rebuildをサポートしていないようで、オプションのように見える唯一の再構築コマンドは、追加するディスクを知りたいコマンドです（ヘルプによると/c2/u1 start rebuild disk=<p:-p...> [ignoreECC]）。サーバーに2つのホットスペアがあり、それらを使用できてうれしいですが、現在の状態でその情報をどのように処理するのかわかりません。

RAID-6に2つの劣化したドライブがある場合、明らかに障害が発生しているドライブ（警告ドライブ）を引き出すことはできますか？最善のシナリオは、WARNINGドライブをプルして、再構築にホットスペアの1つを使用するように指示することだと思います。しかし、2つの劣化したドライブを備えたRAID-6の「正常な」ドライブを引き寄せることで、その問題を強制終了しませんか？

最後に、他の投稿でこのコントローラーの不良バグへの言及を見ました。これにより、良好なドライブが不良としてマークされ、ファームウェアのアップグレードが役立つ場合があります。状況に応じて、ファームウェアのフラッシュは危険な操作ですか？再構築しているが4％でスタックしているRAIDを助けたり、傷つけたりする可能性はありますか？このバグが実際に発生していますか？

スピリチュアル以外のアドバイスをいただければ幸いです。ありがとう。

cswingle · Accepted Answer

ドライブをプルしたりシステムを再起動したりせずに、tw_cliで次のコマンドを発行することで、RAIDを再構築できました。

/c2/u1 set ignoreECC=on

再構築はすぐには進行しませんでしたが、この変更を行った翌朝の午前2時に再構築が開始され、約6時間後に完了しました。 ECCエラーのあるドライブには24個の不良セクタがあり、ドライブによって上書きおよび再割り当てされています（SMARTデータによる））。ファイルシステムは無傷のようですが、私が驚かないでください。これらのセクターのデータにアクセスすると、エラーが発生します。

いずれにせよ、私は以前よりもはるかに良くなっており、データの大部分を回復できる可能性があります。できることを入手したら、故障しているドライブを取り出して、ホットスペアに再構築します。