IOWaitが高いため、今日サーバーでダウンタイムが発生しました。サーバー上ではほとんど何もできませんでした。IOWaitを表示するためにtop
を実行することしかできませんでしたが、その時点ではiotop
がインストールされていなかったため、どのプロセスが表示されませんでした。それを引き起こしています。とにかくiowaitをライブで監視し、高負荷の場合にそれを引き起こしているプロセスに関する情報をダンプすることはありますか?
私は、なぜI/Oを待たせるのかを理解するアプローチを取ります。これはおそらく、無差別に強制終了したいプロセスではなく、システム構成とリソースの結果です。
十分なストレージリソースがありますか?サーバーは物理的ですか、それとも仮想的ですか?アプリケーションは大量のデータを書き込みますか?これらはすべて、I/O待機レベルとパフォーマンスに影響を与える可能性のある要因です。
top
を確認できたとき、システム負荷も高いと思いましたか?もしそうなら、あなたはそれについて警告したいかもしれません。このような状態をチェックして通知する簡単な方法は、Monitのようなシステムモニターを使用することです。