web-dev-qa-db-ja.com

L3キャッシュのECCエラー-重大かどうか?

Linuxサーバー(8xクアッドコアAMD 8378)では、次のエラーが発生します。

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged

これは先月中に3回発生しましたが、以前には発生していません(サーバーが3年間稼働)。

素早いgoogle-searchから、これは深刻な問題のようです。

ただし、ベンダーサポート技術者は次のように述べています。

私はこれらのエラーを何度も見ましたが、CPUをオーバークロックしていない限り-またはファンの故障などが発生していない限り-プロセッサの問題である可能性はほとんどありません。カーネルがエラーを誤って報告している可能性が高くなります。

だから-これは重大なエラーですか?新しい部品を注文する必要があります(CPUを交換しますか?)または無視しますか?

どうもありがとう。

5
L3error

ベストプラクティス:可能な場合は、独自のスペア部品を保管してください。

マシンチェックの例外については、これらはハードウェアによって報告されます;カーネルはメッセージをユーザーに渡しているだけなので、ハードウェアの問題が手に負えなくなり、実際に災害が発生する前に対処できます。

カーネルがマシンチェック例外を「誤って報告」しているのを見つけた唯一の例は、次のとおりでした。 この場合 、それはカーネルではなく、問題を引き起こしているプロセッサの欠陥でした。

Intel XeonプロセッサE7ファミリプロセッサには、一部のc状態の遷移により、誤った修正可能なMachine Check Exception(MCE)エラーがMCEバンク6からユーザーに報告される可能性があるという問題があります。一部のE7プロセッサフ​​ァミリシステムでは、これによりMCEエラーの「フラッド」が発生しました。このパッチは、バンク6のMCEエラー報告を無効にします。

結論:欠陥のあるハードウェアの交換をベンダーが回避しようとしているように思えます。

3
Michael Hampton

エンタープライズサーバーでは、次のように処理しました。エラーが過剰な場合、または週ごとに繰り返される場合は、ベンダーに交換を依頼してください。実際には、イベント監視サービスがそれ自体をトリガーしました。質問はありません。

X86に移行すると、EDAC/MCEが混乱するなどの話も聞こえました。エラーが引き続き発生する場合は、ハードウェアを交換する必要があります。

(大きな太陽イベントに関連する可能性も低いです。IS可能ですが、PCハードウェアが不安定で、ベンダーが何かを交換することに消極的であることがはるかに一般的です)

0
Florian Heigl