サイトを非表示にして、検索エンジンに表示されないようにしたいと思っています。どうすればよいのでしょうか。
Robots.txtファイルを使用します: http://www.google.com/support/webmasters/bin/answer.py?answer=156449
サイトをパスワードで保護する以外に、次の行をrobots.txt
に追加できます。
User-agent: *
Disallow: /
これはhideサイトではなく、コンテンツをスパイダーしないようにボットに指示します。
robots.txt を使用して、なんとかしてリストに表示されるサイトを減らすことができます。ただし、これはクローラーの「善意」に依存することに注意してください(一部のスパムボットは、許可されていない場所を明示的に調べます)。
悲しいことに、サイトをリストに載せないための唯一の安全で信頼できる方法は、それをインターネットに載せないことです。
単にあなたのサイトにリンクしないことは機能しません。クローラーは、ブラウザーのリファラーやドメインレジストラなど、多くのソースから情報を取得します。したがって、「非表示」にするには、サイトにアクセスしたり、ドメインを登録したりする必要はありません(IPアドレスを介してのみアクセスします)。
そして、IPアドレスに基づいてWebサーバーを実行している場合でも、すべてのスパムボットがランダムなアドレスをプローブしていることになります。しばらく時間がかかりますが、彼らはあなたを見つけます。
サイトをパスワードで保護すると機能し、事実上アクセスできなくなります。しかし(そしてそれがどのように起こるかは私の理解を超えています)、例えば、Googleには文字通り何千ものACM論文がリストされており、アカウントとログインなしでは見ることができません。それでもそれらはそこにあります。
robots.txt を使用し、すべての検索エンジンから拒否します。すべてがrobots.txtを尊重しているわけではないため、サーバーログを定期的に確認し、疑わしいロボット/クローラーの範囲を拒否します。
robots.txt
ファイルを使用します。このコンテンツを含むサイトのルートにファイルを配置します。
User-agent: *
Disallow: /
最も適切な検索エンジンは、ボットまたはクローラーを使用してWebサイトにインデックスを付けます。あなたができる ロボットファイルメソッド