一連のページはnoindex
およびnofollow
としてマークされ、robots.txt
とX-Robots-Tag: noindex, nofollow
の両方でGoogleウェブマスターツールで確認すると、ページは "robots.txtによって拒否されました"、これはいいですね。また、 この回答 で説明したように、許可されていないページは、技術的にクロールされていなくてもインデックスに登録される場合があります。
ただし、2週間前にRobots-Tag
を追加しても、ページは引き続きGoogle検索結果に表示されます。
たとえば、このテストページ http://www.english-attack.com/profile/scott-s-sober は、h1
タイトル "Scott S. Sober"https://www.google.com/search?q=%22Scott+S.+Sober%22
どうしてこれなの?
この問題の原因は、新しく追加されたX-Robots-Tag
がGoogleに表示されないことです理由ページのインデックスを再作成していません。
Robots.txtから禁止を解除し、Googleにヘッダー付きのページを取得させると、結果からページが削除されます。
ファイルをrobots.txt
に配置しても、Googleによるページのインデックス作成は妨げられません。 Googlebotによるページの再クロールのみが防止されます。ページが以前にクロールされている場合、Googleは、数か月間インデックスにとどまるのに十分なほど魅力的であると知っているコンテンツのバージョンを見つけることがあります。
十分な外部リンクがそのページを指している場合、Googleはrobots.txt
によってブロックされたページを永久にインデックスに登録することがあります。クロールされていないページのインデックスを作成することもあります。そのような場合、ページのキーワードにはインバウンドリンクのアンカーテキストのみを使用し、ページのキャッシュバージョンはありません。
Googleがインデックスからページを削除するようにするには、Googlebotがページをクロールできるようにし、メタロボットタグの「noindex」を確認する必要があります。 Googlebotによるページのクロールを許可しない場合、インデックスを作成したくないことを知ることはありません。 Disallow:
からこれらのファイルのrobots.txt
行を取り出します。
または、Googleウェブマスターツールを使用して、各URLの削除をリクエストできます。インデックスの解除を希望するURLが少数しかない場合は、苦痛になります。