/ var/log/messagesで、次のエラーが発生しました:
Sep 19 13:18:15 wdc kernel: [2772302.630416] Machine check events logged
その後まもなく、サーバー全体が応答しなくなりました。これは、XenサーバーのDom0のログにあります(Debian Squeezeで最新バージョンを実行しています)。
誰かがこのエラーの意味に光を当てることができますか?新しいハードウェアを注文する必要がありますか?
編集:また、何かがログに記録されたことを意味しているようですが、どこで確認できますか?
詳細については、ログファイルを確認してください(このログファイルが存在するかどうかは、/ etc/mcelog/mcelog.confでの構成方法によって異なります)。検出された問題の詳細な説明があります。
/var/log/mcelog
または単にコマンドを実行する
mcelog
Mcelogは、x86マシンのカーネルマシンチェックログをデコードしています。 man mcelog
から:
X86 CPUs report errors detected by the CPU as machine check events (MCEs). These
can be data corruption detected in the CPU caches, in main memory by an integrated
memory controller, data transfer errors on the front side bus or CPU interconnect or
other internal errors. Possible causes can be cosmic radiation, instable power
supplies, cooling problems, broken hardware, or bad luck.
Most errors can be corrected by the CPU by internal error correction mechanisms.
Uncorrected errors cause machine check exceptions which may panic the machine.
When a corrected error happens the x86 kernel writes a record describing the MCE into
a internal ring buffer available through the /dev/mcelog device mcelog retrieves
errors from /dev/mcelog, decodes them into a human readable format and prints them on
the standard output or optionally into the system log.
mcelogとその構成/エラー/トリガーの詳細については、プロジェクトのWebページ McelogプロジェクトのWebページ を参照してください。
mcelog
はDebian10 +(Buster)および buntu 18.04 +で削除されました
機能はrasdaemon
に置き換えられました。
ログエントリは mcelog によって書き込まれました。そのログファイルは/var/log/mcelog
、またはシステムに応じて、syslogまたはsystemdジャーナルにあります。
X86 CPUには、ハードウェアエラー(メモリ、IO、およびCPUハードウェアエラー)を検出し、場合によっては修正する機能があります。 mcelogは、Linuxカーネルが書き込む/dev/mcelog
からこれらのエラーを取得します。
システムがクラッシュしたため、ハードウェアの修正が失敗した可能性があります。システムが動作し続ける場合は、自動修正が機能しているようです。
このようなメッセージが表示されることの影響の詳細については、 「mce:[ハードウェアエラー]:ログに記録されたマシンチェックイベント」がsyslogに表示されます。どうすればよいですか? を参照してください。