web-dev-qa-db-ja.com

Googleのインデックス作成を停止します

Googleがサイトのインデックスを作成しないようにする方法はありますか?

65
Developer

robots.txt

User-agent: *
Disallow: /

これにより、すべての検索ボットのインデックス作成がブロックされます。

詳細については、以下を参照してください: http://www.google.com/support/webmasters/bin/answer.py?hl=ja&answer=4036

103
UnkwnTech

ここで答えを追加する必要があります。受け入れられた答えが実際に問題に適切に触れていないからです。また、Googleのクロールを防止しても、コンテンツを非公開にできるわけではありません。

私の答えはいくつかのソースに基づいています: https://developers.google.com/webmasters/control-crawl-index/docs/getting_startedhttps://sites.google.com/ site/webmasterhelpforum/en/faq--crawling--indexing --- ranking

robots.txtファイルはクロールを制御しますが、インデックスは作成しません!これら2つは完全に異なるアクションであり、別々に実行されます。一部のページはクロールされるが、インデックス付けされない場合があり、一部のページはインデックス付けされる場合もあります ただし、クロールされない 。クロールされていないページへのリンクが他のウェブサイトに存在する可能性があります。これにより、Googleインデクサーはそれをフォローし、インデックスを作成しようとします。

質問は、ページに関するデータを収集しているインデックス化に関するものであり、検索結果から利用できる場合があります。メタタグの追加をブロックできます:

<meta name="robots" content="noindex" />

または、HTTPヘッダーを応答に追加します。

X-Robots-Tag: noindex

質問がクロールに関するものである場合は、もちろんrobots.txtファイルを作成し、次の行を追加できます。

User-agent: *
Disallow: /

クロールは、特定のWebサイトの構造に関する情報を収集するために実行されるアクションです。例えば。 Googleウェブマスターツールを使用してサイトを追加しました。クローラーはそれを考慮に入れて、robots.txtを検索してWebサイトにアクセスします。見つからない場合は、何でもクロールできると想定します(この操作を支援し、優先順位を指定して変更頻度を定義するには、sitemap.xmlファイルも持つことが非常に重要です)。ファイルが見つかると、ルールに従います。クロールが成功すると、ある時点でクロールされたページのインデックス作成が実行されますが、いつ...

重要:これは、robots.txtに関係なく、Google検索結果に引き続きページを表示できることを意味します。

少なくとも何人かのユーザーがこの答えを読んで、実際に何が起こるかを知ることが重要であるので、それを明確にして欲しいと思います。

82
Karol

Apache confでグローバルに以下の設定を追加することにより、このサーバー全体を無効にすることができます。または、特定のvhostのみに対して無効にするために同じパラメーターをvhostで使用できます。

ヘッダーセットX-Robots-Tag "noindex、nofollow"

これが完了したら、返されたApacheヘッダーを確認してテストできます。

curl -I staging.mywebsite.com HTTP/1.1 302 Found Date:Sat、26 Nov 2016 22:36:33 GMT Server:Apache/2.4.18(Ubuntu)場所:/ pages/X-Robots-Tag:noindex、nofollowコンテンツタイプ:text/html; charset = UTF-8

1
nisamudeen97

Googleを含むクローラーを停止して、ウェブサイトのクロールとインデックス登録を停止する方法がいくつかあります。

サーバーレベルでヘッダーを介して

Header set X-Robots-Tag "noindex, nofollow"

robots.txtファイルを介したルートドメインレベル

User-agent: *
Disallow: /

ロボットレベルのメタタグを介したページレベル

<meta name="robots" content="nofollow" />

ただし、ウェブサイトが古く、既存のページ/ URLではない場合は、Googleが次のクロールでそれらのURLのインデックスを自動的に削除するまで待つ必要があります-read https://support.google.com/webmasters/answer/1663419?hl = en

1
Deepak Mathur

nofollowメタタグを使用します。

<meta name="robots" content="nofollow" />

リンクレベルでnofollowを指定するには、値nofollowを持つ属性relをリンクに追加します。

<a href="example.html" rel="nofollow" />
0

単純なaspxページを使用して、一度に100件の結果を取得する偽の「Pref」Cookieを使用して、Googleからブラウザに結果をリレーします.Googleにこのリレーページを表示したくないので、IPアドレスをチェックして開始するかどうか66.249では、リダイレクトを行うだけです。

プライバシーを大切にし、コピーを希望する場合は、私の名前をクリックしてください。

私が使用する別のトリックは、ほとんどの(すべてではない)Webボットがjavascriptを実行しないので、ページを呼び出してセッションでフラグを設定するjavascriptを持っているので、javascriptがオフになっているブラウザであるか、それ以上のものであることがわかりますボット。

0
Flash

また、この方法でメタロボットを追加できます。

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

また、別の追加レイヤーは.htaccessを変更することですが、それを深くチェックする必要があります。

0
user1586214

Googleがサイトのインデックスを作成しないようにする方法はありますか?

Googleのクロールを停止するには、次のmetaタグをすべてのページのheadに追加します。

<meta name="googlebot" content="noindex, nofollow">
0
Josh Habdas

Robots.txtに従うという主張にもかかわらず、MicrosoftのBingのクローラーは常にそうではないことに注意してください。

サーバーの統計によると、robots.txtに従わないクローラーを実行するIPの数と、robots.txtに従わないIPの数があることが示されています。

0
Hades