文字列libwww-Perlとmsnbotを含むユーザーエージェントを禁止することをお勧めするチュートリアルをたくさん目にしました。 libwww-Perlを禁止する理由を理解しています。これは主に、ハッキングやスパムに使用されるだけではない場合です。
しかし、なぜmsnbot/bingbotを禁止することを推奨しているサイトが非常に多いのですか?
これは検索エンジンであるため、市場シェアがわずかであっても、このボットに自分のサイトをクロールさせたい場合を除きます。
Msnbotが禁止する理由は何ですか?
私は人々がビンボットを禁止すべきだとは思わない。
Bingには http://www.bing.com/toolbox/webmaster/ に同等のBing Webmasterツールがあります。このビデオには、クロールレートを調整できる「クロール設定」もあります。 http://www.bing.com/videos/watch/video/bing-webmaster-tools-crawl-rate-settings/1ii1ej9jz
Googlebotは、msnbotと同様に、サイトの過度のクロールで悪名高い。また、サイトのトラフィック(リンク/リンク)が向上するほど、Googlebotのクロールが増加します。スタック交換の質問が投稿された後、どれだけ速くインデックス化されるかを見てください。アクセスログを確認すると、これらのボットがサーバーにどれだけヒットするかを確認できます。
また、msnbotがrobots.txt Crawl-delay
パラメーターをサポートしていることも発見しました。 http://www.bing.com/community/site_blogs/b/webmaster/archive/2009/08/10/crawl-delay-and-the-bing-crawler-msnbot.aspx
msnbotは、スパイダーサーバーに関して非常に多機能であり、インデックスを作成するページが多数ある場合、サーバーを非常に簡単に動作不能にする可能性があります。 MSNからのトラフィックはGoogleが提供できるものよりもかなり少ないため、.htaccess、iptables、またはrobots.txtを介してmsnbotを拒否することは非常に一般的です。 Googlebotを使用すると、 http://google.com/webmasters で速度を簡単に制限できます。
Bing-> Edgeの関係における最近の変更により、質問は興味深いものになりました。 bingbotの振る舞いを受け入れるべきですか?
とにかく北ヨーロッパで見た最後の数週間-BingはEdgeで開かれたURLに基づいてコンテンツのインデックスを作成し始めました。あなただけがアクセスする「秘密の」URL。そのため、ホテルの滞在後に突然プライベートな領収書を表示する難読化されたリンクを含むメールは、リンクを開いてエッジブラウザで領収書を表示しただけで、Bingによってインデックスが作成され公開されます。 「site:」パラメーターを使用した検索により、ホテルやアートの購入、銀行やクレジットカードの請求書など、個人の個人情報が明らかになり始めています。推測してアクセスする。しかし、Edgeは無料ですべてをbingに提供します。とにかく、おそらくユーザー同意書でサインオフしたでしょう。
もちろん、これらの種類のデータは適切な認証なしではアクセスできないはずですが、実際にはこのような秘密のリンクが広く使用されています。
私は特定の目的のためにWebサイトの1つで難読化されたリンクを使用しますが、個人データや機密データを公開しないため、無害です。それでも、ユーザーがEdgeを介してアクセスしているという理由だけで、これらすべてのリンクがBingによってインデックス付けされるべきではないと思います。そのため、解決策が整うまで一時的にBingをブロックしました。
これまでのところ、この新しくて危険なBing-Edgeの動作に関する情報はほとんどありません。数週間前にわが国で作成され始めた小さなスキャンダルについて書いた論文を除きます。
BingBotには、ボットがサイトをクロールする速度を制限できるWebmaster Toolsセクションがありますが、アプローチには3つの大きな問題があります。
Googleのように秒数でクロールレートを選択することはできません。代わりに、低音から高音までの低音域がありますが、実際の低音と高音の意味をヒット間の秒数で説明しようとはしません。
BingBotは、より遅い速度でクロールするというあなたの希望を守るかもしれませんが、多くの場合、複数のスパイダーが同時にサイトをクロールします。低い速度でクロールする多くのクモは、高い速度でクロールする1つのクモよりもはるかに悪い場合があります。
マイクロソフトは気にしません。数秒ごとにページを読み込んでサーバーを停止する約20の個別のボット接続がある場合について、私は彼らに連絡しました。彼らの反応は、彼らがそれに対してできることは何もないということでした。
マイクロソフトによる簡単なプログラミングスキルにより、常に1つのボットのみがサイトをクロールできるようになります。
私の解決策は、iptablesのMSN IP範囲を制限することです。私はまだこれを試していますが、これにより、サイトへのアクセスは許可されますが、速度は低下します。接続が攻撃的になりすぎると拒否されます。
私のクライアントの1人は、Bingのショッピングだけで毎月10,000ドルをしていました。 Bingのオーガニック製品はそれ以上でした。それらを禁止すると、収益の大きな損失が発生します。それを提案する人は、それぞれの個人的な理由を持たなければなりません。 Bingは訪問を生成するため、トラフィックを減らしたい場合は、Bingを禁止してください。そうでなければ、Anthonyのように、ウェブマスターツールを使用して、Bing.comのサイトを改善できると述べました
MSNBotは非常に攻撃的であり、1か月以内に多くのサイトから2.5GB以上の帯域幅を消費しました(eachサイトの場合は2.5GB +です)。マイクロソフトはそれを真っ直ぐにする必要がありますが、おそらくそうなることはないでしょう。それまでは、MSNBotを悪意のあるプログラムとして扱い、システムから禁止しています。