Googleがサイトのインデックスを作成しないようにする方法はありますか?
robots.txt
User-agent: *
Disallow: /
これにより、すべての検索ボットのインデックス作成がブロックされます。
詳細については、以下を参照してください: http://www.google.com/support/webmasters/bin/answer.py?hl=ja&answer=4036
ここで答えを追加する必要があります。受け入れられた答えが実際に問題に適切に触れていないからです。また、Googleのクロールを防止しても、コンテンツを非公開にできるわけではありません。
私の答えはいくつかのソースに基づいています: https://developers.google.com/webmasters/control-crawl-index/docs/getting_startedhttps://sites.google.com/ site/webmasterhelpforum/en/faq--crawling--indexing --- ranking
robots.txt
ファイルはクロールを制御しますが、インデックスは作成しません!これら2つは完全に異なるアクションであり、別々に実行されます。一部のページはクロールされるが、インデックス付けされない場合があり、一部のページはインデックス付けされる場合もあります ただし、クロールされない 。クロールされていないページへのリンクが他のウェブサイトに存在する可能性があります。これにより、Googleインデクサーはそれをフォローし、インデックスを作成しようとします。
質問は、ページに関するデータを収集しているインデックス化に関するものであり、検索結果から利用できる場合があります。メタタグの追加をブロックできます:
<meta name="robots" content="noindex" />
または、HTTPヘッダーを応答に追加します。
X-Robots-Tag: noindex
質問がクロールに関するものである場合は、もちろんrobots.txt
ファイルを作成し、次の行を追加できます。
User-agent: *
Disallow: /
クロールは、特定のWebサイトの構造に関する情報を収集するために実行されるアクションです。例えば。 Googleウェブマスターツールを使用してサイトを追加しました。クローラーはそれを考慮に入れて、robots.txt
を検索してWebサイトにアクセスします。見つからない場合は、何でもクロールできると想定します(この操作を支援し、優先順位を指定して変更頻度を定義するには、sitemap.xml
ファイルも持つことが非常に重要です)。ファイルが見つかると、ルールに従います。クロールが成功すると、ある時点でクロールされたページのインデックス作成が実行されますが、いつ...
重要:これは、robots.txt
に関係なく、Google検索結果に引き続きページを表示できることを意味します。
少なくとも何人かのユーザーがこの答えを読んで、実際に何が起こるかを知ることが重要であるので、それを明確にして欲しいと思います。
Apache confでグローバルに以下の設定を追加することにより、このサーバー全体を無効にすることができます。または、特定のvhostのみに対して無効にするために同じパラメーターをvhostで使用できます。
ヘッダーセットX-Robots-Tag "noindex、nofollow"
これが完了したら、返されたApacheヘッダーを確認してテストできます。
curl -I staging.mywebsite.com HTTP/1.1 302 Found Date:Sat、26 Nov 2016 22:36:33 GMT Server:Apache/2.4.18(Ubuntu)場所:/ pages/X-Robots-Tag:noindex、nofollowコンテンツタイプ:text/html; charset = UTF-8
Googleを含むクローラーを停止して、ウェブサイトのクロールとインデックス登録を停止する方法がいくつかあります。
サーバーレベルでヘッダーを介して
Header set X-Robots-Tag "noindex, nofollow"
robots.txtファイルを介したルートドメインレベル
User-agent: *
Disallow: /
ロボットレベルのメタタグを介したページレベル
<meta name="robots" content="nofollow" />
ただし、ウェブサイトが古く、既存のページ/ URLではない場合は、Googleが次のクロールでそれらのURLのインデックスを自動的に削除するまで待つ必要があります-read https://support.google.com/webmasters/answer/1663419?hl = en
nofollowメタタグを使用します。
<meta name="robots" content="nofollow" />
リンクレベルでnofollowを指定するには、値nofollowを持つ属性relをリンクに追加します。
<a href="example.html" rel="nofollow" />
単純なaspxページを使用して、一度に100件の結果を取得する偽の「Pref」Cookieを使用して、Googleからブラウザに結果をリレーします.Googleにこのリレーページを表示したくないので、IPアドレスをチェックして開始するかどうか66.249では、リダイレクトを行うだけです。
プライバシーを大切にし、コピーを希望する場合は、私の名前をクリックしてください。
私が使用する別のトリックは、ほとんどの(すべてではない)Webボットがjavascriptを実行しないので、ページを呼び出してセッションでフラグを設定するjavascriptを持っているので、javascriptがオフになっているブラウザであるか、それ以上のものであることがわかりますボット。
また、この方法でメタロボットを追加できます。
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>
また、別の追加レイヤーは.htaccessを変更することですが、それを深くチェックする必要があります。
Googleがサイトのインデックスを作成しないようにする方法はありますか?
Googleのクロールを停止するには、次のmeta
タグをすべてのページのhead
に追加します。
<meta name="googlebot" content="noindex, nofollow">
Robots.txtに従うという主張にもかかわらず、MicrosoftのBingのクローラーは常にそうではないことに注意してください。
サーバーの統計によると、robots.txtに従わないクローラーを実行するIPの数と、robots.txtに従わないIPの数があることが示されています。