私はArch Linuxで真新しいシステムを約3週間実行しており、昨夜は自発的に再起動しました。
再起動時にjournalctlにシャットダウン/停止はないので、これはハードウェア関連であり、ユーザースペースプログラムやacpiではないと確信しています。
journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.
次に、ブート中に、
Jul 01 06:24:46 euclid kernel: .... node #0, CPUs: #1 #2 #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel: #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15
Mcelogを実行しようとすると、
0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_AMD module instead.
CPU is unsupported
1)このシステムのPSUのサイズが小さすぎるか、2)どこかが過熱していると思います。
私が実行したすべてのPSU計算機は750Wの推奨を与えたので、850W PSUを選びました。それでも、今は1000W PSUへのアップグレードを検討しています。
私の質問は、そのマシンチェックイベントをどのように解釈すればよいですか?それは私のCPUに固有のものだと思いますか? AMDは、そのエラーを解読できる情報を出力しますか?また、過熱により再起動したかどうかはどのようにしてわかりますか? BIOS(ASUS)でイベントログが見つかりません。
編集:詳細
プロセッサー:Ryzen 7 1700
Mobo:Asus Prime x370-Pro
RAM:G.SKILL Trident Z(4x 8GB)3200(F4-3200C16D-16GTZKW)
PSU:EVGA SuperNOVA 850 P2 80+ PLATINUM 850W
GPU:GTX 1080-TI x2
ハンドル0x0000、DMIタイプ0、24バイト
BIOS情報
ベンダー:American Megatrends Inc.
バージョン:0604
リリース日:2017年4月6日
オーバークロックなし。ストックBIOS設定。
数週間安定して動作しました。イベントの数日前に3x HDDを追加しました。
編集:同じクラッシュが再び発生したようです
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
これはCPUハードウェアの問題のようです。 AMDコミュニティフォーラム( https://community.AMD.com/thread/21577 )では、これが修正されるまでの回避策として、SMTまたはOpCacheを無効にすることが推奨されていました。
BIOSとmceでOpCacheを無効にした:起動時の[ハードウェアエラー]メッセージが消えました。フリーズ/リブートで同じ問題が発生した2つの同一のシステムがあります。これまで、両方のシステムはフリーズしていませんでした。