6月4日のWebトラフィックの Cacti グラフでこれを見て少し驚いた:
IISログで Log Parser を実行しましたが、これはYahooとGoogleのボットが私たちをインデックスに登録している完璧な嵐であることがわかりました。この3時間で、 3つの異なるGoogle IPからの28.7万ヒット、およびYahooからの104kヒット。
GoogleやYahooをブロックしたくはありませんが、これは以前からありました。 Cisco PIX 515E にアクセスできます。これを前面に配置して、Webサーバーに直接触れることなく動的に帯域幅違反者に対処できるようにすることを検討しています。
しかし、それが最善の解決策ですか? 帯域幅の過剰な使用を特定してブロックするのに役立つソフトウェアまたはハードウェアがあるかどうか疑問に思っています、理想的にはリアルタイムですか?おそらく、Webサーバーの前に置くことができるハードウェアまたはオープンソースソフトウェアの一部ですか?
私たちは主にWindowsショップですが、Linuxのスキルもいくつか持っています。 PIX 515Eが十分でない場合は、ハードウェアを購入することもできます。あなたは何をお勧めします?
PIXがバージョン7.2以降のOSを実行している場合、またはバージョン7.2にアップグレードできる場合は、ファイアウォールレベルでQOSポリシーを実装できます。特に、これによりトラフィックを形成でき、ボットが使用する帯域幅を制限できるようになります。シスコはこれに優れた指導者を持っています ここ 。
クロールの負荷を減らすために-これはMicrosoftとYahooでのみ機能します。 Googleの場合、ウェブマスターツール( http://www.google.com/webmasters/ )で、より遅いクロール速度を指定する必要があります。
クロールを遅くしすぎると、ロボットがすべてのサイトにアクセスできなくなり、インデックスからページが失われる可能性があるため、これを実装するときは十分に注意してください。
ここにいくつかの例があります(これらはあなたのrobots.txt
ファイル):
# Yahoo's Slurp Robot - Please wait 7 seconds in between visits
User-agent: Slurp
Crawl-delay: 7
# MSN Robot - Please wait 5 seconds in between visits
User-agent: msnbot
Crawl-delay: 5
少しトピックから外れていますが、サイトマップまたはサイトマップインデックスファイルを指定することもできます。
検索エンジンに最適なURLの包括的なリストを提供したい場合は、1つ以上のサイトマップ自動検出ディレクティブを提供することもできます。 user-agentはこのディレクティブには適用されないため、これを使用して、すべてではなく一部の検索エンジンにサイトマップを指定することはできません。
# Please read my sitemap and index everything!
Sitemap: http://yourdomain.com/sitemap.axd
Yahooについてはよくわかりませんが、Googleのボットがサイトにインデックスを付ける頻度を設定できます。 Google Webmasters をご覧ください。 Yahooが似たようなものを持っているかどうかはわかりません。いずれにせよ、トラフィックは最大50%減少します。
または、一部のWebサーバーでは、接続ごとのトラフィックを制限できるため、それを試すことができます。個人的には、ハードウェアソリューションはコストがかかる可能性が高いため、避けたいと思います。
私たちはWatchguardファイアウォールを使用しています(私たちのX1000は現在、サポートが終了しています)。彼らは何度も何度も見られるか、または執拗な量の帯域幅を使用しているドメインやIPをブロックすることを中心に展開する多くの機能を持っています。
スタックオーバーフローでJonSkeetをブロックしたくないのは明らかなので、これには微調整が必要です:)
Microsoft ISA Server 2006をお勧めします。特にこの要件では、デフォルトでIPあたり600 HTTPリクエスト/分に制限され、Jon Skeetに例外を適用できます(申し訳ありませんが、わかりました)その「冗談」はすでに作られています!)。
アプリケーションレベルのフィルタリング、複数のWebサーバー間での負荷分散機能(これらのサーバーのNLBではなく)、VPN終了などの追加の利点があります。利用可能な商用拡張機能は多数あり、独自のISAPIフィルターを作成することもできます。あなたは勇気を感じています。
明らかにオープンソースではありませんが、Windowsショップにメリットがあり、コモディティハードウェアで実行されます。
Bluecoat(旧Packeteer)PacketShaper製品は、管理するトラフィックの過剰な使用を動的に抑制できます。
Foundryロードバランサー(特にSI850s)を使用して、この種のシェーピングの問題を処理します。また、SYNフラッドなど、他の多くの「厄介な問題」も処理します。ただし、やややり過ぎかもしれません。
適切な容量/ビンテージの通常のCiscoルーターを使用して、基本的なレート制限を実行することもできます。 Ciscoルーターを使用していますか?