web-dev-qa-db-ja.com

サーバーがハングする理由を確認する方法、それでもpingで到達可能

ドイツのデータセンターで稼働しているサーバーの1つが毎晩「ハング」しますが、その理由がわかりません。/var/log/messagesおよび/ var/log/syslogにエラーは見つかりません。

サーバーはpingに応答しますが、すべてのサービスがダウンしています(ssh、Apacheなど)。リセット後、すべてが正常に実行されます。

ハードウェアテストが実行されました。ソフトウェアの問題のようです。

いくつかの簡単なプロファイリングコマンドをファイルに記録したままにしておくと、事後に何がうまくいかなかったのかを内部で確認できます。例えば:

Nohup top -b -d 60 >> top.log & # runs every 60 seconds
Nohup vmstat 5 >> vmstat.log &
Nohup iostat 5 >> iostat.log &

Nohupが存在するため、サーバーへの接続が失われたときにそれらが強制終了されることはありません。そのためにscreenを使用することもできます。

最後の2つのコマンドのより堅牢な代替手段は、セットアップ sar です。

3
Eduardo Ivanec

このような問題が発生した場合、通常はcronジョブの問題になります。

サーバーがハングするのと同じ時刻に実行されているcronジョブについてsyslogを確認してください。また、root crontab(crontab -e)と/etc/cron.dailyのジョブで、原因となる可能性のあるものがないか確認してください。

1
Matt Beckman