L3キャッシュのECCエラー-重大かどうか？

Question

Linuxサーバー（8xクアッドコアAMD 8378）では、次のエラーが発生します。

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b [Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag. [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP [Hardware Error]: Machine check events logged

これは先月中に3回発生しましたが、以前には発生していません（サーバーが3年間稼働）。

素早いgoogle-searchから、これは深刻な問題のようです。

ただし、ベンダーサポート技術者は次のように述べています。

私はこれらのエラーを何度も見ましたが、CPUをオーバークロックしていない限り-またはファンの故障などが発生していない限り-プロセッサの問題である可能性はほとんどありません。カーネルがエラーを誤って報告している可能性が高くなります。

だから-これは重大なエラーですか？新しい部品を注文する必要があります（CPUを交換しますか？）または無視しますか？

どうもありがとう。

Michael Hampton · Answer

ベストプラクティス：可能な場合は、独自のスペア部品を保管してください。

マシンチェックの例外については、これらはハードウェアによって報告されます;カーネルはメッセージをユーザーに渡しているだけなので、ハードウェアの問題が手に負えなくなり、実際に災害が発生する前に対処できます。

カーネルがマシンチェック例外を「誤って報告」しているのを見つけた唯一の例は、次のとおりでした。この場合、それはカーネルではなく、問題を引き起こしているプロセッサの欠陥でした。

Intel XeonプロセッサE7ファミリプロセッサには、一部のc状態の遷移により、誤った修正可能なMachine Check Exception（MCE）エラーがMCEバンク6からユーザーに報告される可能性があるという問題があります。一部のE7プロセッサファミリシステムでは、これによりMCEエラーの「フラッド」が発生しました。このパッチは、バンク6のMCEエラー報告を無効にします。

結論：欠陥のあるハードウェアの交換をベンダーが回避しようとしているように思えます。

Florian Heigl · Answer

エンタープライズサーバーでは、次のように処理しました。エラーが過剰な場合、または週ごとに繰り返される場合は、ベンダーに交換を依頼してください。実際には、イベント監視サービスがそれ自体をトリガーしました。質問はありません。

X86に移行すると、EDAC/MCEが混乱するなどの話も聞こえました。エラーが引き続き発生する場合は、ハードウェアを交換する必要があります。

（大きな太陽イベントに関連する可能性も低いです。IS可能ですが、PCハードウェアが不安定で、ベンダーが何かを交換することに消極的であることがはるかに一般的です）