web-dev-qa-db-ja.com

BingBotが同時に複数のサブドメインにヒットし、パニックを引き起こす

複数のサブドメインを持つサイトがあります。 1日の特定の時間に、Bingbotが私のサイトに集まり、次のような大規模なスキャンを実行します。

01:23:11 a.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 b.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 c.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 d.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 e.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 f.example.com GET /index HTTP/1.1 403 Bot.A
01:23:12 g.example.com GET /index HTTP/1.1 403 Bot.A
01:23:22 h.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 i.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 j.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 k.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 l.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 m.example.com GET /index HTTP/1.1 403 Bot.B
01:23:23 n.example.com GET /index HTTP/1.1 403 Bot.B

ボットは複数のサブドメインをスキャンしているため、Crawl-delay: 1robots.txtディレクティブはそのような動作には影響しません。サーバーの防御メカニズムは、403エラーを発行してこれらのクローラーをブロックします。

BingBotのクロールを均等に分散させる方法はありますか? Bingのウェブマスターツールのデフォルトの クロールパターン は従わないようです。

1

これはBing Webmaster ToolsのVincentで、あなたの投稿に気付きました。

まず第一に、サブドメイン全体でのクローラーのクロールアクティビティで発生している問題についてご不便をおかけして申し訳ありません。もっと良くできると確信しています。

いくつかのこと:

ウェブマスターツールのクロールパターン設定が機能していなかったとおっしゃっていました。その理由は、robots.txtでCrawl-delay:ディレクティブを使用する場合-このディレクティブは常にBing Webmaster Toolsのクロールコントロール設定よりも優先されるため、これが期待どおりに機能しない理由です(- http://www.bing.com/webmaster/help/crawl-control-55a30302 )。

一方、異なるcrawl-delay:ディレクティブを持ついくつかのサブドメイン固有のrobots.txtを使用してこれを緩和する必要があるため、ここには適切なセルフサービスソリューションがないため、Bing Webmasterに連絡することをお勧めしますドメイン/サブドメイン情報をサポートおよび共有して、適切なチームに渡して詳細を確認できるようにします(調査を支援するためにサーバーログを要求する場合があります)。

Webmaster Supportに連絡するには、 http://go.Microsoft.com/fwlink/p/?linkid=261881 にアクセスし、必要なフィールドに入力して、「どのような問題がありますか? 」プルダウンから[クロール中またはオーバークロールの問い合わせ]を選択し、表示されている問題について説明します。すぐにパーソナライズされた応答を返さなくても(24〜48時間かかる場合があります)、少なくともボールが転がるはずです。

4
Vincent Wehren

私の経験では、MSNボットはrobots.txtにとって常に手に負えないものであり、識別可能なトラフィックの利点はありません。過去3年間、私は彼らのひどい行動に非常に不寛容になりました。そして、はい、彼らはマイクロソフトからです。

  • .htaccessのRewriteCond%{HTTP_USER_AGENT}で403

  • Fail2banまたはmod_securityを使用して、それらをブロックまたはレート制限ブロックします

  • 上記の両方

  • ログデータを収集し、それらをnullルーティングします

アクセスする価値はありません。

1
user45000