Google、Yahoo&Bing(およびGoogle Imagesのような関連サイト)を除くすべての検索エンジンが、大量のサーバーと帯域幅を消費するがトラフィックをもたらさないため、サイトのクロールを何らかの方法でブロックできるようにしたいと思います.
これは簡単ですか、難しいですか?誰かがrobots.txtファイルに貼り付けてそれらをブロックできる小さな検索エンジンのリストを保持しておくといいでしょう。
また、robots.txtを無視するクローラーやサイトがひそかにスクレイピングやクロールを行うのをブロックできないことを認識していますが、それは私が望んでいることではありません。私はすべてのAltavistas、Hotbots、Lycos(これらはまだ存在します)と大学の実験クローラーが私の時間を無駄にしないようにしたいだけです。
これまでに何を試しましたか?
webmaster tools robots.txt generator を使用して、これを作成しました:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
しかし、私はそれをテストしていません。
どれほど大きな問題なのでしょうか?
心配する必要があるボットは、ルールに従わず、定期的に訪問しているふりをしているボットです。
検索エンジンのトラフィックは合法であり、ダンが指摘したように、Googleは小規模な大学プロジェクトとしてもスタートしました。小さい人を差別するのは本当に公平ではなく、長期的には賢くないかもしれません。
Kinopikoの答えは機能し、Googleのウェブマスターツールを使用してrobot.txt(サイト構成、クローラーアクセス)を作成およびテストできますが、正規の検索エンジンからのトラフィックが問題になっている場合は、現在のホスティングソリューションは大したことではありません。
ルールに従わないものについては、ログでそれらを見つけてIPでブロックすることができます。
一般に、ページを読むのが速すぎて人間にはならないという事実によって、ボットを見つけることができます。