だから...私たちの電子メールサーバーにいくつかの非常に奇妙な負荷の問題があります。午前8時から9時頃に急上昇し始めますが(偶然にもそれは人々が働き始めるときです)、午前11時頃に下降します。 CPU使用率は正常なままで、十分な空きメモリがあり、スワッピングはありません。昨日は非常に高いiowait%(49.75)と非常に高い負荷(40)がありましたが、今日は「のみ」の負荷が11〜12で、iowait%は3〜4トップでした。
すべての兆候は、imapdが原因(courier-imap)であることを示しています。これは、imapdを停止すると、負荷が突然低下し始め、2〜3分以内に通常に戻ったためです。私はそれらの約40-60を実行していました。それぞれ5つの接続を開くThunderbirdを使用し、ほとんどのワークステーションで1に下げました。少し役に立ちました(負荷が5〜7に下がりました)。その後、サーバー全体が午前11時頃に通常に戻りました。
私はまだ約30のimapdを実行していますが、完全に通常の負荷(0.2〜0.4)です。だから...なぜこれが起こっているのか私は本当に理解していません。なぜなら、それが問題の原因である場合、論理的にははるかに高いはずだからです。
これは、1ギガラムのLinode 1080VPSです。
(chkrootkit/rkhunterは異常なことは何も示しませんでした。)
VPSを使用している場合は、VPSに表示されていない他のユーザーとIO帯域幅、CPU時間、およびメモリ帯域幅を共有しています。
物理マシンでホストされている別のdomUが、これらのリソース(おそらくIO)の1つ以上を大量に消費していると確信できます。
iostat -x
を使用すると、サービス時間が大きく変動していることがわかります。これは、ディスクIOでプロセスがブロックされているために、負荷平均が急上昇している理由を説明しています。
私が理解しているように、* nixシステムの負荷は、「実行を待機しているプロセスの数」を意味します。これは必ずしもCPUを待っているという意味ではありません。ディスクアクセスを待っているか、ネットワーク接続が完了するのを待っている可能性があります。
たとえば、私は以前、負荷が80を超えて急上昇し始め、システムがクロールすることがあるシステムを管理していました。これは、ローカルシステムがクライアントに対して認証要求を行っていた外部LDAPサーバーが誤動作したことが原因でした。
CPUとiowaitに問題がないと思われる場合は、アプリケーションが異常に高い負荷の読み取り値の原因として持つ可能性のあるネットワークの依存関係を探します。
示された最初のポスターのように、それはおそらくIOです。私は実際にvserverで同じセットアップを行っており、同じ問題が頻繁に発生します。問題は、vserverのような仮想サーバーの現在のコンテナーメソッドがIOを効果的に分離しないことです。興味がある場合は、13ページで詳細に説明するホワイトペーパーを参照してください。 http: //www.cs.princeton.edu/~mef/research/vserver/paper.pdf