私は、ほとんどの場合適度にパフォーマンスが高く、パフォーマンスが低下することがあるWebサーバーの容疑者のリストを絞り込もうとしています。 sarによって収集および要約されたデータを分析しています。いくつか気づきましたが、そのうちの1つは、実行キュー内のタスクの数が多いことです。
10:15:01 AM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
10:25:01 AM 2 150 0.05 0.05 0.06 0
10:35:01 AM 4 149 0.08 0.12 0.09 0
10:45:01 AM 6 150 0.13 0.19 0.15 0
10:55:01 AM 1 150 0.08 0.10 0.13 0
11:05:01 AM 4 150 0.20 0.35 0.23 0
11:15:01 AM 3 149 0.02 0.09 0.15 0
11:25:01 AM 7 149 0.04 0.05 0.11 0
11:35:01 AM 4 150 0.14 0.15 0.13 0
11:45:01 AM 6 150 0.27 0.18 0.16 0
11:55:01 AM 5 150 0.08 0.10 0.13 0
12:05:01 PM 3 149 0.35 0.40 0.26 0
12:15:01 PM 19 155 0.02 0.10 0.16 1
12:25:01 PM 2 150 0.00 0.07 0.12 0
12:35:02 PM 3 151 0.58 0.24 0.17 0
12:45:01 PM 8 150 0.02 0.13 0.15 0
12:55:01 PM 6 149 0.81 0.29 0.18 0
01:05:01 PM 3 148 0.00 0.09 0.13 0
01:15:01 PM 7 149 0.00 0.04 0.11 0
これらは10分の平均だと思います。
これは、平均実行キューの長さが短い場合にWebサーバーのパフォーマンスが低下していることを示していますか?
この間、平均負荷は低いままです。読み取り間のこのような大きな遅延があると、多くを決定するのは難しいと思います。対応する高負荷の高実行キューは、リソースの問題を示します。ここではそうではないと思います。 「パフォーマンスの低下」をどのように定量化していますか?
これは、原因よりもパフォーマンスの低下の症状である可能性が高くなります(たとえば、一部のアイテムの処理アイテムあたりの処理時間が長く、1つのサーバーへの負荷を不均衡にする各クエリに関連する作業に依存しない負荷分散が組み合わされています)。