これは重大なRAIDエラーですか？

Question

次の場合

/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog > /tmp/tmp /opt/MegaRAID/MegaCli/MegaCli -LDPDInfo -aAll -NoLog >> /tmp/tmp

次に、これらのエラーが表示されます

Media Error Count: 11 Other Error Count: 5

質問

彼らはどういう意味ですか？それらは重要ですか？

完全な出力：

Adapter 0 -- Virtual Drive Information: Virtual Disk: 0 (target id: 0) Name:Virtual Disk 0 RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3 Size:951296MB State: Optimal Stripe Size: 64kB Number Of Drives:5 Span Depth:1 Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Access Policy: Read/Write Disk Cache Policy: Disk's Default Adapter #0 Number of Virtual Disks: 1 Virtual Disk: 0 (target id: 0) Name:Virtual Disk 0 RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3 Size:951296MB State: Optimal Stripe Size: 64kB Number Of Drives:5 Span Depth:1 Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Access Policy: Read/Write Disk Cache Policy: Disk's Default Number of Spans: 1 Span: 0 - Number of PDs: 5 PD: 0 Information Enclosure Device ID: N/A Slot Number: 0 Device Id: 0 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000000000000 Connected Port Number: 0 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9523610 PD: 1 Information Enclosure Device ID: N/A Slot Number: 1 Device Id: 1 Sequence Number: 2 Media Error Count: 11 Other Error Count: 5 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000001000000 Connected Port Number: 1 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9507278 PD: 2 Information Enclosure Device ID: N/A Slot Number: 2 Device Id: 2 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000002000000 Connected Port Number: 2 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9504713 PD: 3 Information Enclosure Device ID: N/A Slot Number: 3 Device Id: 3 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000003000000 Connected Port Number: 3 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9503028 PD: 4 Information Enclosure Device ID: N/A Slot Number: 4 Device Id: 4 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000004000000 Connected Port Number: 4 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9503793

Paweł Brodacki · Accepted Answer

スロット1のドライブに問題があります。これはRAID 5なので、データは保護されますが、冗長性が失われます（1つのディスクは信頼できません）。メディアエラーは、ドライブがスペアセクターを使い果たし、不良セクターを（ ~~http://kb.lsi.com/KnowledgebaseArticle15809.aspx~~ http://mycusthelp.info/LSI/_cs/AnswerDetail.aspx?inc=7468 ）。それが私のデータである場合、バックアップ時に二重に注意を払い、ドライブを取り外し、新しいドライブと交換して、アレイを同期させます。一部のベンダー（IBMなど）は、予測障害インジケーターに基づいてRMAを受け入れますが、受け入れないベンダーもあります。ベンダーが、不良で再マップできないセクターのあるディスクを不良として受け入れない場合は、アレイから取り出して、テストシステムで実行してください。妥当な時間で失敗するはずです。

編集：

メディアイベントは、スロットID 1のディスクでのみ非ゼロでした。ログには、各エントリのスロットIDが含まれています。奇妙なことに、ディスク上のメディアエラーにもかかわらず、raidはその状態を最適として報告します。それでも、私はディスクを信頼しません。

同じサイズのn個のディスクで構成されたRAID 5は、1個のディスクに相当する冗長データを格納するため、（n-1）個のディスクの容量を提供します。したがって、250 GBのディスクが6つあり、使用可能なスペースが1Tある場合、それらは5つのディスクRAID 5（4x250 GBの使用可能なスペースを提供します）と1つのスペアディスクに分割されます。

pQd · Answer

実際 smartctl は、MegaRaid raidのすべてのディスクに関する詳細情報を提供できます。物理ディスク＃0に関する情報を取得するには、次を実行します。

smartctl -a -d megaraid,0 /dev/sda|less

pawelはおそらくそれが再割り当てされたセクターであることを正しく指しているので、通信の問題[smartctl -l xerror -d megaraid、5/dev/sdaで表示]がメディアエラーカウントとして報告される場合はほとんどありませんでした。

O G · Answer

アレイが稼働している限り、問題はありません。メディアエラーカウンターは、ドライブの1つでのセクター再割り当ての失敗などのイベントによって増加する可能性がありますが、その他のエラーカウンターは、問題のないイベント（バスデバイスのリセット、電源の再投入など）によって増加する可能性があります。ただし、エラーが重大な場合、ドライブはコントローラーによって自動的にアレイから取り出され、障害が報告されます。その場合は、アクションを実行する必要があります。

Smartctlがメガライドと個々のユニットのステータスに関する詳細なSMART情報を提供できるとしたらすばらしいと思いますが、それがサポートしているとは思いません。念のため試してみてください。

Sean Reifschneider · Answer

時々、ドライブは読み取りエラーを生成し、私の経験では、通常、それが発生すると、「バッドブロック」を実行してドライブのストレステストを行うことができ、ドライブは早い段階でいくつかのエラーを報告することがありますが、ドライブに少しストレスがかかるとエラーを報告し続ける場合は、不良であるか、エラーは報告されません。

これは、ドライブの一部のセクターが限界に達しているためであると考えました。不良ブロックの再マッピングは、ディスクに書き込んでいるときにのみ発生し、ディスクからは読み取れません。不良になったセクターにデータを書き込む場合、ドライブはそのセクターを読み取るエラーを報告する必要があります。なぜなら、そのセクターをスペアセクターの1つに静かに再マップした場合、エラーではなく無効なデータが返されるからです。しかし、書き込み時に、セクターが不良であることに気付いた場合、そのデータをスペアセクターに書き込み、再マッピングすることができます。

残念ながら、このエラーカウントをクリアすることはできないため、メディアエラーを報告する監視がある場合は、ドライブを交換するか、ドライブを交換する必要があります。これにより、これを無視するか、多くのエラーを監視し、変更時にのみ報告するようにできます。再び。

ドライブSMARTステータスはsmartctlで確認できます（ありがとう、@ pQd、それについては知りませんでした）。

MegaCli64 -PDList -aALL | grep -e '^$' -e Slot -e Count # Find the slot number to use for "X". # For "Y" use the device name the system knows, such as "sda". smartctl -a -d megaraid,X /dev/sdY

ドライブを再構築して、引き続き問題が発生するかどうかを確認することは、おそらく不合理ではありません。 MegaRAIDでは、次のコマンドでそれを行うことができます。

# WARNING: Make sure the array is "Optimal" first, this will degrade it. MegaCli64 -LDInfo -Lall -aALL | grep State # NOTE: This assumes drive 3 of Enclosure 32 for adapter 0 MegaCli64 -PDOffline -PhysDrv [32:3] -a0 MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0 # Now check the rebuild status until it completes: MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0 # And the array status should go back to Optimal MegaCli64 -LDInfo -Lall -aALL | grep State

以前は、ドライブを常にRAIDアレイから外していた（100から200のドライブのサンプルでは、おそらく1か月に1か月に1度）。しかし、ドライブを交換した後、ドライブはそれほど不良ではありませんでした。

「badblocks」を使用して本番稼働する前にすべてのドライブに書き込みを開始し、約1週間「バッドブロック」を使用しました。その後、これらのアレイのドロップアウトの数は劇的に減少しました。現在では、500ドライブ全体で、年に2回程度発生します。

これは破壊的なテストなので、ドライブにデータがないことを確認してください：

badblocks -svw -p 5 /dev/sdX

「sdX」はテストするデバイスでした。 ここで注意してください。間違ったドライブを選択すると、データが破壊されます。テストベンチのスタンドアロンマシンでテストを実行します。