dmesg
で見つかった次のメッセージの正確な意味を解読するのを手伝ってくれませんか?
Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: 8c00004000010093
Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: TSC 5159cf02b8 ADDR 529449f80 MISC 2040404086
それらの多くがありますが、CPU 0: Machine Check: 0 Bank 7: 8c00004000010093
はそれらの間で一定です。
CPUがハードウェアの問題を検出していることは理解していますが、whereは理解していません。バンク7のメモリスティックが故障している可能性がありますか? (私は8つの銀行が完全に読み込まれました)。
mcelog
をインストールするように勧められている別のスレッドを見つけましたが、apt
はmcelog
という名前のパッケージを検出しません。
編集:
システムはmemtestの1回のパスを完了し、一晩実行し続けました。それは堅実なままでした。
/var/log/syslog
の表示内容は次のとおりです。
Sep 13 13:40:11 mint ntpd[1462]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized Sep 13 13:44:25 mint kernel: [ 648.820738] mce: [Hardware Error]: Machine check events logged Sep 13 13:44:25 mint kernel: [ 648.820770] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: c01fbb4000010093 Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: TSC 0 Sep 13 13:44:25 mint kernel: [ 648.820779] EDAC sbridge MC0: ADDR 0 Sep 13 13:44:25 mint kernel: [ 648.820780] EDAC sbridge MC0: MISC 0 Sep 13 13:44:25 mint kernel: [ 648.820786] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1536846265 SOCKET 0 APIC 0
メモリ関連のエラーのようですが、ディスクのI/O操作中にシステムが再起動するようです。
マシンはランダムに再起動し続けます。どんな助けでも信じられないほど歓迎されます。
コメントから...
Memtestは正常に実行されているように見えますが、すべての兆候は、Bank 7:c01fbb400001009で断続的なメモリの問題があることです。
RAMメモリモジュールの障害、またはRAMメモリモジュールの装着障害、またはマザーボード上のメモリスロットの欠陥が考えられます。
メモリスロットがロジックボード上のバンク番号で識別されている場合、バンク7のメモリモジュールを黒のマジックマーカーペンでマークします。 すべてのメモリモジュールが同じブランド/メーカー/モデルであると仮定、すべてのメモリモジュールを回転させます1つのスロットのみ以上、RAMメモリモジュールバンク7はバンク6になります。ESDモジュールを扱うときは、適切なRAM接地技術を使用してください。 memtestを再実行して、エラーを記録します。
Memtestが正常に実行されたら、システムを再起動します。正常に実行されれば、問題は解決しました。バンク6エラー(またはバンク7以外)で失敗した場合、欠陥のあるメモリモジュールが特定されています。
メモリモジュールはペアで取り付け/取り外しする必要があります。 1つのモジュールは通常メモリチャネルAにあり、もう1つのモジュールはメモリチャネルBにあります。これはメモリインターリーブを目的としています。特定のRAMモジュールを完全に識別/削除する場合は、そのモジュールとそのインターリーブメイトを削除し、システムを再起動して再テストします。