私は読んで理解しました キャパシティプランニングを手伝ってくれませんか? ですが、DNSサーバーのシナリオでの次のステップが何であるかがわかりません。 I think CPUの負荷が高いか、クエリを削除し始めている可能性がありますが、アクションを実行する前に、サーバーの負荷をよりよく理解したいと思います。インフラストラクチャをDDoS負荷にスケーリングすることは戦いに負けていることは一般的な知識であるため、これは特に私にとって懸念事項です。
私の環境を理解するために何を分析する必要がありますか?
Serverfaultでは、通常、キャパシティプランニングを支援できないとお伝えします。これには正当な理由があります。私たちはあなたの環境の詳細を知りません、そしてそれを測定する方法に関する答えはほとんど同じです。残念ながら、DNS容量の測定は十分に理解されていないトピックであり、ほとんどの管理者は、CPU使用率が高いということは、容量の追加を検討する時期であると想定します。これは本当に、本当に悪い考えであり、DNS DDoSにスケーリングすると、必然的にネットワークデバイスが窒息することになります。 (さらに悪いことに、法務部門に連絡する人)
サーバーログとパケットキャプチャは、ほとんどの管理者が最初に活用しようとするものですが、単純な真実は、SNMPがログよりもはるかに多くの環境について教えてくれるということです。ignoreログとパケットキャプチャは行わないでください。ただし、SNMPは通常、問題の存在をより早く発見するのに役立ちます。
SNMP監視ツールによって提供されるデフォルトのシステム統計(CPU負荷、インターフェイスごとのスループットとパケットカウンター、ディスクI/Oなどを含む)を追跡することに加えて、次のOIDを追加することをお勧めします。
udpInErrors
(怒っている赤い色を強くお勧めします)udpInDatagrams
、udpOutDatagrams
udpNoPorts
tcpInSegs
、tcpOutSegs
これらのグラフは、問題を示すメトリックと、問題の診断に役立つメトリックの2つのカテゴリにまとめることができます。
インジケーター
udpInErrors
は、容量の問題の主な兆候です。このカウンターは、アプリケーションがトラフィックを十分に高速に処理していないため、カーネルがUDPデータグラムをドロップするたびに増加します。これは、DNSサービスが過負荷になり、着信トラフィックに追いつくことができないことを意味します。これらのメトリックの増加をシステム上の他のパフォーマンスの問題と関連付けることができない場合は、おめでとうございます。容量に合法的に近づいているか、容量を超えているので、サーバーを追加します。私が感銘を受けたと考えてください。 :)
診断
これはDNS固有のアイテムのみを対象としています。ここで頭を使ってください。これがすべてを含むとは思わないでください。 (例:ディスクI/Oの飽和はDNSに固有の問題ではありません)
補足:udpNoPorts
はreally容量メトリックではありませんが、キャッシュポイズニングの試みを識別するのに役立ちます。このカウンタは、予期しないポートでUDPパケットが検出されるたびに増加し、通常の動作中にこれらの壁が持続する場合は、誰かが応答を偽造しようとしていることを示している可能性があります。 (それ、またはリスナーの1つが実行されていません:それをfooに戻します '!)
DNSサーバー(実際にはあらゆるタイプのサーバー)では、構成の誤り(おそらく他の場所)が要求量を増幅している場合に備えて、DNSサーバーから行われている要求を調べて分析する必要がある場合があります(たとえば、 WindowsDNSサーバーを繰り返し参照) SERVFAIL応答を受け取ったときにゾーン内のレコードを要求する )。クエリと応答の比率を調べてから、正常性を確認するためのコンパレータを見つけてください。