web-dev-qa-db-ja.com

自発的な再起動、マシンチェックイベント、AMD ryzen

私はArch Linuxで真新しいシステムを約3週間実行しており、昨夜は自発的に再起動しました。

再起動時にjournalctlにシャットダウン/停止はないので、これはハードウェア関連であり、ユーザースペースプログラムやacpiではないと確信しています。

journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.

次に、ブート中に、

Jul 01 06:24:46 euclid kernel: .... node  #0, CPUs:        #1  #2  #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel:   #4  #5  #6  #7  #8  #9 #10 #11 #12 #13 #14 #15

Mcelogを実行しようとすると、

0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor.  Please use the edac_mce_AMD module instead.
CPU is unsupported

1)このシステムのPSUのサイズが小さすぎるか、2)どこかが過熱していると思います。

私が実行したすべてのPSU計算機は750Wの推奨を与えたので、850W PSUを選びました。それでも、今は1000W PSUへのアップグレードを検討しています。

私の質問は、そのマシンチェックイベントをどのように解釈すればよいですか?それは私のCPUに固有のものだと思いますか? AMDは、そのエラーを解読できる情報を出力しますか?また、過熱により再起動したかどうかはどのようにしてわかりますか? BIOS(ASUS)でイベントログが見つかりません。

編集:詳細

プロセッサー:Ryzen 7 1700

Mobo:Asus Prime x370-Pro

RAM:G.SKILL Trident Z(4x 8GB)3200(F4-3200C16D-16GTZKW)

PSU:EVGA SuperNOVA 850 P2 80+ PLATINUM 850W

GPU:GTX 1080-TI x2

ハンドル0x0000、DMIタイプ0、24バイト
BIOS情報
ベンダー:American Megatrends Inc.
バージョン:0604
リリース日:2017年4月6日

オーバークロックなし。ストックBIOS設定。

数週間安定して動作しました。イベントの数日前に3x HDDを追加しました。

編集:同じクラッシュが再び発生したようです

Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
5
Todd Freed

これはCPUハードウェアの問題のようです。 AMDコミュニティフォーラム( https://community.AMD.com/thread/21577 )では、これが修正されるまでの回避策として、SMTまたはOpCacheを無効にすることが推奨されていました。

BIOSとmceでOpCacheを無効にした:起動時の[ハードウェアエラー]メッセージが消えました。フリーズ/リブートで同じ問題が発生した2つの同一のシステムがあります。これまで、両方のシステムはフリーズしていませんでした。

2
mpreiner