ディスクエラーが原因でRAID1の再構築が失敗する

Question

クイック情報：H700アダプタのRAID1に2x500GBドライブを搭載したDell R410

最近、サーバー上のRAID1アレイのドライブの1つに障害が発生したため、ドライブ0と呼びます。RAIDコントローラーはそれを障害としてマークし、オフラインにしました。障害のあるディスクを新しいディスク（同じシリーズとメーカー、少し大きい）と交換し、新しいディスクをホットスペアとして構成しました。

Drive1からの再構築がすぐに開始され、1.5時間後に、Drive1が失敗したというメッセージが表示されました。サーバーが応答せず（カーネルパニック）、再起動が必要でした。このエラーの再構築の30分前が約40％であったことを考えると、新しいドライブはまだ同期していないと推定し、ドライブ1だけで再起動しようとしました。

RAIDコントローラーはRAIDアレイの欠落について少し不満を言っていましたが、ドライブ1で外部RAIDアレイが見つかり、インポートしました。サーバーが起動し、実行されます（劣化したRAIDから）。

これがSMARTディスクのデータです。ドライブ0（最初に故障したもの）

ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-K 200 200 051 - 1 3 Spin_Up_Time POS--K 142 142 021 - 3866 4 Start_Stop_Count -O--CK 100 100 000 - 12 5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0 7 Seek_Error_Rate -OSR-K 200 200 000 - 0 9 Power_On_Hours -O--CK 086 086 000 - 10432 10 Spin_Retry_Count -O--CK 100 253 000 - 0 11 Calibration_Retry_Count -O--CK 100 253 000 - 0 12 Power_Cycle_Count -O--CK 100 100 000 - 11 192 Power-Off_Retract_Count -O--CK 200 200 000 - 10 193 Load_Cycle_Count -O--CK 200 200 000 - 1 194 Temperature_Celsius -O---K 112 106 000 - 31 196 Reallocated_Event_Count -O--CK 200 200 000 - 0 197 Current_Pending_Sector -O--CK 200 200 000 - 0 198 Offline_Uncorrectable ----CK 200 200 000 - 0 199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0 200 Multi_Zone_Error_Rate ---R-- 200 198 000 - 3

そしてドライブ1（再構築が試みられるまでコントローラーから正常であると報告されたドライブ）

ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-K 200 200 051 - 35 3 Spin_Up_Time POS--K 143 143 021 - 3841 4 Start_Stop_Count -O--CK 100 100 000 - 12 5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0 7 Seek_Error_Rate -OSR-K 200 200 000 - 0 9 Power_On_Hours -O--CK 086 086 000 - 10455 10 Spin_Retry_Count -O--CK 100 253 000 - 0 11 Calibration_Retry_Count -O--CK 100 253 000 - 0 12 Power_Cycle_Count -O--CK 100 100 000 - 11 192 Power-Off_Retract_Count -O--CK 200 200 000 - 10 193 Load_Cycle_Count -O--CK 200 200 000 - 1 194 Temperature_Celsius -O---K 114 105 000 - 29 196 Reallocated_Event_Count -O--CK 200 200 000 - 0 197 Current_Pending_Sector -O--CK 200 200 000 - 3 198 Offline_Uncorrectable ----CK 100 253 000 - 0 199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0 200 Multi_Zone_Error_Rate ---R-- 100 253 000 - 0

SMARTからの拡張エラーログで私は見つけました：

ドライブ0のエラーは1つだけです

Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER -- ST COUNT LBA_48 LH LM LL DV DC -- -- -- == -- == == == -- -- -- -- -- 10 -- 51 00 18 00 00 00 6a 24 20 40 00 Error: IDNF at LBA = 0x006a2420 = 6956064 Commands leading to the command that caused the error were: CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name -- == -- == -- == == == -- -- -- -- -- --------------- -------------------- 61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED 61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED 61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED 61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED 61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104 WRITE FPDMA QUEUED

しかし、ドライブ1には883エラーがあります。最後のエラーはほとんど表示されず、表示されるすべてのエラーは次のようになります。

Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER -- ST COUNT LBA_48 LH LM LL DV DC -- -- -- == -- == == == -- -- -- -- -- 01 -- 51 00 80 00 00 39 97 19 c2 40 00 Error: AMNF at LBA = 0x399719c2 = 966203842 Commands leading to the command that caused the error were: CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name -- == -- == -- == == == -- -- -- -- -- --------------- -------------------- 60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:57.802 READ FPDMA QUEUED 2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:57.779 READ LOG EXT 60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:55.704 READ FPDMA QUEUED 2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:55.681 READ LOG EXT 60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:53.606 READ FPDMA QUEUED

これらのエラーを考慮して、RAIDを再構築する方法はありますか、それともバックアップを作成し、サーバーをシャットダウンし、ディスクを新しいものと交換して復元する必要がありますか？ USB/CDで実行されているLinuxから新しいディスクに障害のあるディスクを追加した場合はどうなりますか？

また、誰かがより多くの経験を持っている場合、それらのエラーの原因は何でしょうか？安っぽいコントローラーまたはディスク？ディスクは約1年前のものですが、両方が非常に短い時間内に死ぬことは私にはかなり信じられません。

Magellan · Accepted Answer

実際、ディスクが両方ともメーカーの同じバッチのものである場合、それらがほぼ同時に故障することはそれほど驚くべきことではありません。

それらは同じ製造プロセス、環境、および使用パターンを持っています。そのため、私は通常、異なるベンダーから同じモデルのドライブを注文しようとします。

ここでの私の好ましい行動方針は、製造元に連絡し、より良いディスクと交換し、バックアップから復元することです。

DDでも問題はありませんが、通常はできるだけ早くサービスを開始する必要があります。

IBM Deskstarsの大失敗の日に、4年間使用してから6週間以内に8台のディスクのセット全体が故障しました。私は自分のデータをそのままにして、それからかろうじて抜け出しました。