約50台のホストでicinga/collectd/graphiteを実行している監視サーバーがあります。ボックスの高負荷/スラッギングパフォーマンスに気づきました。上を見ると、次のように表示されます。
CPU:0.6%us、0.2%sy、0.0%ni、7.6%id、23.4%wa、0.0%hi、0.2%si、0.0%st
巨大な%wa値に注意してください。これは、私の知る限り、ネットワークまたはディスクのボトルネックを意味します。 ifconfigはパケットのドロップを表示せず、大量の帯域幅が実行されていないため、ディスクの問題が残りますよね?大量のディスク書き込みも行われていません... iotopは、毎秒1 MBを少しだけ書き込んでいると報告しており、RAIDツールはすべてが正常で書き込みキャッシュが有効になっていると報告しています。
これを修正する方法を理解するにはどうすればよいですか?
更新:iostat -x出力は次のとおりです。
avg-cpu: %user %Nice %system %iowait %steal %idle
0.62 0.10 0.31 9.65 0.00 89.31
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.21 33.34 83.55 16.54 1599.94 399.07 19.97 43.21 416.98 3.71 37.13
i/o待機は、NFS、SMBおよびその他のリモートファイルシステムによっても生成されます。
使用する vmstat 2
io waitを含むシステムパフォーマンスの詳細なビューを表示します。
通常、高waは、OSがネットワークまたはディスクを待機していることを意味します。 iotop と呼ばれる気の利いたプログラムがあります。これにより、ディスクの状態がわかります。