ここに私が何をすべきかわからない奇妙なものがあります。今日、当社の電子商取引サイトがダウンしました。実稼働ログを追跡したところ、この範囲のIP 157.55.98.0/157.55.100.0から大量のリクエストを受け取っていたことがわかりました。私はグーグルで調べて、それがMSN Webクローラーであることを知りました。
そのため、基本的にMS Webクローラーがサイトを過負荷にして、応答しませんでした。 robots.txtファイルには次のものがありますが、
Crawl-delay: 10
したがって、私がしたことは、iptablesでIP範囲を禁止しただけです。
しかし、私がここから何をするかわからないのは、フォローアップの方法です。この問題についてBingに連絡する場所が見つかりません。Bingからインデックスが解除されると確信しているため、それらのIPをブロックしたままにしたくありません。そして、これは以前に他の誰にも起こったことのようには思えません。
助言がありますか?
更新、マイサーバー/ウェブ統計
Webサーバーは、Nginx、Rails 3、および5人のUnicornワーカーを使用しています。 4 GBのメモリと2つの仮想コアがあります。現在、このセットアップを9か月以上実行しており、問題は発生していません。95%の時間はシステムの負荷が非常に少ない状態です。平均して月に800,000ページビューを受け取りますが、これはWebサーバーの起動/減速に近づきません。
このIP範囲から5〜40リクエスト/秒の範囲で受信していたログを見てください。
私の長年にわたるWeb開発の中で、クローラーがWebサイトに何度もヒットするのを見たことはありません。
これはBingの新機能ですか?
Bingウェブマスターツール でサインアップし、クロール速度チャートに記入します。オフ時間中は最速のクロール、最も忙しい時間中は大幅にレートを下げるように設定します。
BingがWebサイトをひっくり返している場合、Webサーバーの処理能力を再考する必要があります。最良のテストは、Google、Bing、Yahoo、Baiduがすべて一度にシステムにヒットしても生き残ることができるかどうかを確認することです。猛攻撃中にサービスが継続する場合、ライブの顧客ロードの準備ができています。
はい、制限を与えていない場合、Bingはかなり強く攻撃する可能性があります。 2か月前にここで深刻な問題が発生していました。それを処理するためにシステムを調整しましたが、それは良いことでした。
PHPと正規表現を使用します。 Robots.txtを忘れてください。いくつかの悪いボットはそれを尊重しません...
if (preg_match('/(?i)bingbot/',$_SERVER['HTTP_USER_AGENT']))
{
exit();
}
そして、あなたはBingに言います:ドアはあなたのために閉じられます!
Bingbotを制御するには2つの方法があります。詳細については、 http://www.bing.com/webmaster/help/crawl-control-55a30302 を参照してください。
コントロールパネルを使用したくない場合は、robots.txt
ファイルを使用してください。
「robots.txtファイルにcrawl-delay:
ディレクティブが見つかった場合、この機能からの情報よりも常に優先されます。」