smartmontoolsは、RAID1構成で使用されるドライブ上の読み取り不可能なセクターの数が増加していることを報告します。 LSIMegaRAIDコントローラーはディスクドライブのSMARTステータスもチェックするため、ドライブに障害があると認識し、オフラインとしてマークする必要があると思いましたか?
Smartctl -d sat + megaraid、7 -a/dev/sdaからの出力:
...
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 69
...
Error 11 occurred at disk power-on lifetime: 9704 hours (404 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 11 6f cd 04 0f Error: UNC at LBA = 0x0f04cd6f = 251972975
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 69 38 17 cd 04 40 00 2d+11:27:29.750 READ FPDMA QUEUED
61 10 30 98 12 55 40 00 2d+11:27:29.750 WRITE FPDMA QUEUED
61 01 28 57 86 da 40 00 2d+11:27:29.750 WRITE FPDMA QUEUED
60 09 20 f7 d1 04 40 00 2d+11:27:29.750 READ FPDMA QUEUED
60 80 18 00 d2 04 40 00 2d+11:27:29.750 READ FPDMA QUEUED
...
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 9700 -
# 2 Short offline Completed without error 00% 9676 -
# 3 Extended offline Completed: read failure 90% 9673 251972659
MegaCliからの出力-AdpAllInfo-aAll:
Product Name : LSI MegaRAID SAS 9260-4i
...
================
Virtual Drives : 2
Degraded : 0
Offline : 0
Physical Devices : 5
Disks : 4
Critical Disks : 0
Failed Disks : 0
RAIDコントローラの動作が正常かどうか、またはどこかに設定ミスがあるかどうかをお知らせください。コントローラは工場出荷時の状態である必要があります。4つの物理ディスクを2つのRAID1ボリュームとして構成しただけです。
とにかく不良ディスクは交換されます。
更新:このタイプのエラーについて学ぶ方法が実際にあることを学びました(以下を参照)が、このタイプの情報は、より目立つステータス情報で表示されると思いました。ログファイルに埋め込まれています。
RAIDコントローラは、このエラー状態からまだ回復できるため、このディスクにフラグを立てなかったようです。
RAIDコントローラのログを表示するには、次のコマンドを実行します。
/opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetLatest 1000 -f events.log -aALL
Events.logファイルには、ディスクに問題があることを示す次のようなエントリが含まれていました。
Code: 0x0000006e
Class: 0
Locale: 0x02
Event Description: Corrected medium error during recovery on PD 07(e0xfc/s2) at f04cb53
Event Data:
===========
Device ID: 7
Enclosure Index: 252
Slot Number: 2
LBA: 251972435
seqNum: 0x00004f65
Time: Wed Mar 6 05:36:48 2013
Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 07(e0xfc/s2) Path 4433221101000000, CDB: 28 00 0f 04 d1 f7 00 01 e0 00, Sense: 3/11/00
Event Data:
===========
Device ID: 7
Enclosure Index: 252
Slot Number: 2
CDB Length: 10
CDB Data:
0028 0000 000f 0004 00d1 00f7 0000 0001 00e0 0000 0000 0000 0000 0000 0000 0000 Sense Length: 18
Sense Data:
00f0 0000 0003 000f 0004 00d2 0046 000a 0000 0000 0000 0000 0011 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
seqNum: 0x00004f64
Time: Wed Mar 6 05:36:43 2013