web-dev-qa-db-ja.com

検索エンジン(Google、Bingなど)からサイトを完全に隠す

私の会社は、GoogleやBingなどの検索エンジンによるインデックス登録を望まない内部ウェブサイトをいくつか運営しています。

ただし、Webサイトにはお客様がアクセスできる必要があるため、 HTTPパスワード保護 は使用しません。

明らかに、私はすでに robots.txt を含んでいます:

User-agent: *
Disallow: /

ドメイン名を検索すると、まだ表示されており、Googleは次のように述べています。「このサイトのrobots.txt」、Bingは「ここで説明を表示したいのですが、サイトでは許可されません。」と言います。

Webサイトが検索結果に完全に隠れていることを確認するにはどうすればよいですか?

4
Kristian

クローラーの良好な動作に依存する方法はすべて失敗する可能性があるため、最良のオプションは、利用可能な最も強力な力/権限、この場合はWebサーバー自体を使用することです。メインのWebサーバー設定または少なくとも 。htaccess ファイルにアクセスできる場合は、これらの要素を含むメソッドを使用する必要があります。

最善の方法はhttpパスワードを使用することですが、それを本当に使用したくない場合は、別のオプションがあります。

クライアントのIPがわかっている場合は、次のような単純な アクセス制御 コードで 。htaccess でそれを制限/許可できます。

Order deny,allow
Deny from all
Allow from x.x.x.x
Allow from y.y.y.y

IPはx.x.xの代わりにx.x.x.xの形式にすることができます。これは、欠落しているブロック全体を許可することを意味します。

これをいくつかのHTTPヘッダーと組み合わせることができます。 4 はボットにそこに行かないように指示します。通常、念のため数回試行しますが、denyディレクティブと組み合わせるとすぐに動作するはずです。

クライアントのIPがわからなくても、HTTP応答コードを使用できます。

別のオプションは、リクエストをホームページにリダイレクトして、たとえば 1 HTTP code を使用することですが、この方法はお勧めしません。それが機能するときでさえ、あなたはリソースとそれに対して何が起こったのかについて真実を語っていないので、それは正確なアプローチではありません。

コメントを考慮して更新

[クローラからのユーザーエージェント文字列のリスト]を使用して、.htaccessでそれらをブロックできます。この単純な構文は、必要な処理を行います。

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo|yandex) [NC]
RewriteRule .* - [R=403,L]

最も一般的なもの、またはサイトにアクセスしたものを追加してください。

2
PatomaS

Header set X-Robots-Tag "noindex"を使用します。これにより、ページが検索エンジンのインデックスに登録されなくなります。

Apacheでは、これをルートディレクトリのconfファイルまたは.htaccessファイルに配置できます。

Header set X-Robots-Tag "noindex"
3
John Conde

これは、GoogleまたはBingがサイトを検出し、not toサイトをインデックスに登録していない場合に発生します。これは、サイトへのリンクまたはリダイレクトがあり、robots.txtがサイトからの検索エンジンを制限している場合に発生します。ただし、これは検索エンジンに伝えることと同じではありませんnot toサイトにインデックスを付けます。

すべてのページのHTMLのヘッダーに<meta name="robots" content="noindex">を配置する(望ましい)か、少なくともホームページと検索エンジンが時間内にインデックスからサイトを削除する必要があります。通常は30〜60かかります(Googleの場合)が、もっと時間がかかる場合があります。それはすべて、検索エンジンがサイトを再訪する速さと検索エンジン内の処理に依存します。それも30日未満かかります。少し時間がかかるかもしれないと警告したかっただけです。

今のところ、他の人があなたのサイトを発見する可能性があることを除いて、害はありません。訪問を制限したい場合は、おそらく別のメカニズムが必要です。アカウントを必要とせず、開いたままにしておきたいことを理解しています。今のところ、訪問を制限することについてアドバイスがあるかどうかはわかりません。しかし、不正なスパイダーもサイトを発見し、希望に関係なくリンクを作成する可能性があることも理解してください。これが発生した場合、いつアクセスを制御するか、そして制御があなたにとって重要かどうかを考えてください。

2
closetnoc