Dell PowerEdge R210でArch Linuxを実行しています。高負荷ではなく、実行されているスクリプトはほとんどありません。 Webサービスのようなソフトウェアはなく、基本システムのみです。サーバーは以前から正常に動作しており、変更は行われていませんが、数日おきにランダムなタイミングでシャットダウンし始めました。サーバーは信頼できるUPSによって保護されていますが、UPSなしで直接接続されていてもシャットダウンし続けるため、これは電源の問題ではありません。私は、サーバーがシャットダウンするまで毎分センサーユーティリティを実行して温度を監視しました。何も問題はありません。すべてのセンサーが30度近くの値を示し続けています。したがって、これは熱の問題ではありません。シャーシでipmiが有効になっているため、シャットダウン後に毎回 "power on" ipmiコマンドを実行でき、サーバーが起動して正常に実行されます。
「restart_cause」には何もありません。
$ ipmitool -H 10.5.5.32 -U root -I lanplus chassis restart_cause
System restart cause: unknown
シャーシログには何もありません。
$ ipmitool -H 10.5.5.32 -U root -I lanplus sel list
1 | 07/23/2019 | 06:33:43 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
2 | 07/24/2019 | 09:51:50 | Physical Security #0x73 | General Chassis intrusion () | Asserted
3 | Pre-Init |0000000032| Physical Security #0x73 | General Chassis intrusion () | Asserted
4 | Pre-Init |0000000037| Physical Security #0x73 | General Chassis intrusion () | Deasserted
5 | 07/24/2019 | 11:29:10 | Physical Security #0x73 | General Chassis intrusion () | Asserted
6 | 07/24/2019 | 11:29:15 | Physical Security #0x73 | General Chassis intrusion () | Deasserted
「最後の」コマンドの出力は次のとおりです。
$ last -x
user pts/0 10.5.5.25 Wed Jul 31 08:31 - 09:38 (01:07)
root ttyS1 Wed Jul 31 08:23 - 09:38 (01:14)
reboot system boot 5.2.1-Arch1-1-AR Wed Jul 31 08:23 - 09:38 (01:15)
shutdown system down 5.2.1-Arch1-1-AR Tue Jul 30 20:17 - 08:23 (12:06)
システムジャーナルには何もありません。
カーネルログレベルをデバッグレベルに設定しましたが、シャットダウンする直前にコンソール出力にメッセージが1つだけ表示されます。
reboot: Power down
「reboot:Power down」が正確に何を意味するのか誰かが私に説明できますか?シャットダウンの原因となったのは誰ですか?誰かがこの非常に奇妙な問題をどのようにデバッグできるか考えていますか?
reboot: Power down
はおそらくコマンドreboot -fp
は、通常のシャットダウンプロセスの最後に実行されています。
last -x
出力は、シャットダウンがおそらく通常のシャットダウンであることを示しています。その時点で誰もログインしていない場合は、ACPI電源ボタンイベント、つまり誰かが電源ボタンを4秒未満押しただけでトリガーされた可能性があります。
シャーシログは、サーバーシャーシが1週間ほど前に開かれたことを示します。もしあなたがそれをしなかったなら、それは「変更がなされていない」という仮定に疑問を投げかけるかもしれません。