web-dev-qa-db-ja.com

MCEエラーメッセージとランダムリブート

dmesgで見つかった次のメッセージの正確な意味を解読するのを手伝ってくれませんか?

Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: 8c00004000010093
Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: TSC 5159cf02b8 ADDR 529449f80 MISC 2040404086

それらの多くがありますが、CPU 0: Machine Check: 0 Bank 7: 8c00004000010093はそれらの間で一定です。

CPUがハードウェアの問題を検出していることは理解していますが、whereは理解していません。バンク7のメモリスティックが故障している可能性がありますか? (私は8つの銀行が完全に読み込まれました)。

mcelogをインストールするように勧められている別のスレッドを見つけましたが、aptmcelogという名前のパッケージを検出しません。


編集:

システムはmemtestの1回のパスを完了し、一晩実行し続けました。それは堅実なままでした。

/var/log/syslogの表示内容は次のとおりです。

Sep 13 13:40:11 mint ntpd[1462]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized Sep 13 13:44:25 mint kernel: [ 648.820738] mce: [Hardware Error]: Machine check events logged Sep 13 13:44:25 mint kernel: [ 648.820770] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: c01fbb4000010093 Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: TSC 0 Sep 13 13:44:25 mint kernel: [ 648.820779] EDAC sbridge MC0: ADDR 0 Sep 13 13:44:25 mint kernel: [ 648.820780] EDAC sbridge MC0: MISC 0 Sep 13 13:44:25 mint kernel: [ 648.820786] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1536846265 SOCKET 0 APIC 0

メモリ関連のエラーのようですが、ディスクのI/O操作中にシステムが再起動するようです。

マシンはランダムに再起動し続けます。どんな助けでも信じられないほど歓迎されます。

1
MadHatter

コメントから...

Memtestは正常に実行されているように見えますが、すべての兆候は、Bank 7:c01fbb400001009で断続的なメモリの問題があることです。

RAMメモリモジュールの障害、またはRAMメモリモジュールの装着障害、またはマザーボード上のメモリスロットの欠陥が考えられます。

メモリスロットがロジックボード上のバンク番号で識別されている場合、バンク7のメモリモジュールを黒のマジックマーカーペンでマークします。 すべてのメモリモジュールが同じブランド/メーカー/モデルであると仮定、すべてのメモリモジュールを回転させます1つのスロットのみ以上、RAMメモリモジュールバンク7はバンク6になります。ESDモジュールを扱うときは、適切なRAM接地技術を使用してください。 memtestを再実行して、エラーを記録します。

Memtestが正常に実行されたら、システムを再起動します。正常に実行されれば、問題は解決しました。バンク6エラー(またはバンク7以外)で失敗した場合、欠陥のあるメモリモジュールが特定されています。

メモリモジュールはペアで取り付け/取り外しする必要があります。 1つのモジュールは通常メモリチャネルAにあり、もう1つのモジュールはメモリチャネルBにあります。これはメモリインターリーブを目的としています。特定のRAMモジュールを完全に識別/削除する場合は、そのモジュールとそのインターリーブメイトを削除し、システムを再起動して再テストします。

1
heynnema