Linuxサーバー(8xクアッドコアAMD 8378)では、次のエラーが発生します。
[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged
これは先月中に3回発生しましたが、以前には発生していません(サーバーが3年間稼働)。
素早いgoogle-searchから、これは深刻な問題のようです。
ただし、ベンダーサポート技術者は次のように述べています。
私はこれらのエラーを何度も見ましたが、CPUをオーバークロックしていない限り-またはファンの故障などが発生していない限り-プロセッサの問題である可能性はほとんどありません。カーネルがエラーを誤って報告している可能性が高くなります。
だから-これは重大なエラーですか?新しい部品を注文する必要があります(CPUを交換しますか?)または無視しますか?
どうもありがとう。
ベストプラクティス:可能な場合は、独自のスペア部品を保管してください。
マシンチェックの例外については、これらはハードウェアによって報告されます;カーネルはメッセージをユーザーに渡しているだけなので、ハードウェアの問題が手に負えなくなり、実際に災害が発生する前に対処できます。
カーネルがマシンチェック例外を「誤って報告」しているのを見つけた唯一の例は、次のとおりでした。 この場合 、それはカーネルではなく、問題を引き起こしているプロセッサの欠陥でした。
Intel XeonプロセッサE7ファミリプロセッサには、一部のc状態の遷移により、誤った修正可能なMachine Check Exception(MCE)エラーがMCEバンク6からユーザーに報告される可能性があるという問題があります。一部のE7プロセッサファミリシステムでは、これによりMCEエラーの「フラッド」が発生しました。このパッチは、バンク6のMCEエラー報告を無効にします。
結論:欠陥のあるハードウェアの交換をベンダーが回避しようとしているように思えます。
エンタープライズサーバーでは、次のように処理しました。エラーが過剰な場合、または週ごとに繰り返される場合は、ベンダーに交換を依頼してください。実際には、イベント監視サービスがそれ自体をトリガーしました。質問はありません。
X86に移行すると、EDAC/MCEが混乱するなどの話も聞こえました。エラーが引き続き発生する場合は、ハードウェアを交換する必要があります。
(大きな太陽イベントに関連する可能性も低いです。IS可能ですが、PCハードウェアが不安定で、ベンダーが何かを交換することに消極的であることがはるかに一般的です)