ドイツのデータセンターで稼働しているサーバーの1つが毎晩「ハング」しますが、その理由がわかりません。/var/log/messagesおよび/ var/log/syslogにエラーは見つかりません。
サーバーはpingに応答しますが、すべてのサービスがダウンしています(ssh、Apacheなど)。リセット後、すべてが正常に実行されます。
ハードウェアテストが実行されました。ソフトウェアの問題のようです。
いくつかの簡単なプロファイリングコマンドをファイルに記録したままにしておくと、事後に何がうまくいかなかったのかを内部で確認できます。例えば:
Nohup top -b -d 60 >> top.log & # runs every 60 seconds
Nohup vmstat 5 >> vmstat.log &
Nohup iostat 5 >> iostat.log &
Nohup
が存在するため、サーバーへの接続が失われたときにそれらが強制終了されることはありません。そのためにscreen
を使用することもできます。
最後の2つのコマンドのより堅牢な代替手段は、セットアップ sar です。
このような問題が発生した場合、通常はcronジョブの問題になります。
サーバーがハングするのと同じ時刻に実行されているcronジョブについてsyslogを確認してください。また、root crontab(crontab -e
)と/etc/cron.daily
のジョブで、原因となる可能性のあるものがないか確認してください。