web-dev-qa-db-ja.com

サイトにrobots.txtを使用すると、既にインデックス付けされているURLは削除されますか?

私のサイトの多くのURLがGoogleのインデックスに追加されましたが、それらの多くは古く、404エラーになり、ユーザーを私のサイトのホームページに移動させることはありません。

最新のURLを使用して新しいサイトマップを送信しましたが、サイトの古いURLと古いURLは引き続きGoogle検索の上部に表示されます。このようなURLは100種類あります。

URL削除リクエストとrobot.txtの作成について知っています。ただし、削除リクエストの送信には多くの時間と労力がかかります。代わりにrobots.txtを使用したいと思います。しかし、古いURLに一致するワイルドカード表現を使用してrobots.txtにリストすると、Googleはインデックスからそれらを削除しますか?または、再度クロールを停止するだけです。つまり、インデックスは再作成されませんが、既に検索された古いURLは引き続きGoogle検索に表示されます。私がすべきことを教えてください。

4
Aryan Venkat

Robots.txtのdisallowディレクティブを使用してGoogleがページをクロールするのをブロックすると、検索結果に表示されなくなりますか? https://developers.google.com/webmasters/control-crawl-index/docs/faq

Googleによるページのクロールをブロックすると、そのページのランキングが低下したり、時間の経過とともにページが完全に削除されたりする可能性があります。また、検索結果の下のテキストでユーザーに提供される詳細の量を減らすことができます。これは、ページのコンテンツがないと、検索エンジンが扱う情報がはるかに少ないためです。

ただし、robots.txt Disallowは、ページが結果に表示されないことを保証しません。Googleは、受信リンクなどの外部情報に基づいて、関連性があると判断する場合があります。ページのインデックス作成を明示的にブロックする場合は、代わりにnoindex robotsメタタグまたはX-Robots-Tag HTTPヘッダーを使用する必要があります。この場合、タグを表示して従うにはページをクロールする必要があるため、robots.txtのページを禁止しないでください。

3
user29671

これは、Googleからの公式の回答です。 ページ全体を完全に削除する

ページを削除する場合は、Googleウェブマスターツールページおよびのインデックスフォームから削除ページに入力する必要がありますrobots.txtファイルを使用してページを除外し、Googleがそれらのページのインデックスを再度作成しないようにします。

彼らは上記のリンクで、ページがGoogleのインデックスに存在し、robots.txtファイルのみを使用してページを除外する場合、それをGoogleによってインデックス付けされます:

ページがまだ存在する場合は、robots.txtを使用してGoogleがクロールしないようにします。 robots.txtでURLが許可されていない場合でも、別のサイトでURLが見つかった場合、ページのインデックスを作成できます。ただし、robots.txtでブロックされており、ページに対するアクティブなURL削除リクエストがある場合、ページのインデックスは作成しません。

3
edsanz

古いページが301をホームページにリダイレクトするか、404または410ステータスコードを提供することを確認する必要があります。

robots.txtにURLを入力すると、Googleは最終的に検索結果からページを削除します。ただし、それには時間がかかる場合があります。

最速の方法は、ウェブマスターツールを使用して、そこからURLを削除することです。

1
Tero Kilkanen