web-dev-qa-db-ja.com

なぜGooglebotは、410を長期間にわたって返してきたページを再クロールし続けるのですか?

ほぼ2年前の2018年の初め、サイトから不要になったページ、関連したページ、維持されていたページなどを廃止しました。これを行うには、410-Gone HTTPステータスを返します。驚いたことに、Googlebotはまだ非常に定期的にこれらのページに戻ってきており、410を何度も何度も取得しています。 2年間。チェックしましたが、これらのページはインデックスに登録されていませんが、クローラーがまだページが「使用可能」であると考えている理由について知りたいのですが。 410が実際にどのように機能するかを説明する優れたブログ/ディスカッションを誰かが知っていますか?

1
Ali

Googlebotが有効なURLを見つけると、それを決して忘れません。定期的にクロールするために常に戻ってきます。返されるステータスは関係ありません。まだリンクがあるかどうかは関係ありません。 15年間、301の永続的なリダイレクトを行っているURLがあります。 Googlebotはまだ時々それらをクロールします。

ロジックは、古いURLが時々復活するということのようです。 Googlebotは時々チェックするかもしれません。 URLへのリンクの数によって、URLがクロールされる頻度が決まります。 URLへの内部リンクと外部リンクをすべて削除すると、クロール頻度が大幅に低下します。

Googlebotには、リンクのない古いURL用の特別なクロールモードもあります。 Googlebotが1日の間に自分のサイトから何百ものそのような古いURLを要求することがあります。 Googlebotがこのクロールモードの場合、URLは長さ順にクロールされているように見えます。最短のURLが最初にクロールされます。

これは心配する必要はありません。

  • URLが「410 Gone」ステータスを返し、クロールを許可している限り、GoogleがURLをインデックスに登録する危険はありません。 Googlebotは、ページが実際に存在しないことを確認するだけです。
  • 404および410ステータスURLは通常、多くのサーバーリソースを消費しません。彼らは非常に小さな応答です。通常、データベースの検索は必要ありません。通常、JS、CSS、および画像に対する追加のリソース要求はトリガーされません。
  • Googleは、適切に構成されたWebサイトで404および410エラーを検出することを期待しています。これらのエラーページをGooglebotに提供しても、サイトの他の部分に害が及ぶことはありません。エラーURLが1億個でも1000万個でも問題ありません GoogleのJohn Muellerによると
4

良いブログ/ディスカッションに関しては、ここにあります
https://www.searchenginejournal.com/google-404-status/254429/

「404エラーが存在しないページに移動する場合、それらを410にする必要がありますか?」

ジョン・ミューラーは答えた:

「私たちの観点から見ると、中長期的には、404は410と同じです。したがって、どちらの場合も、これらのURLをインデックスから削除します。

通常、これらのURLのクロールを少し減らして、存在しないことがわかっているもののクロールに時間をかけすぎないようにします。

ここでの微妙な違いは、410が404よりも少し早く落ちることがあることです。しかし、通常、私たちは数日程度で話しています。

したがって、コンテンツを自然に削除するだけの場合は、どちらを使用しても問題ありません。このコンテンツをずっと前に削除した場合は、すでにインデックスに登録されていないため、404または410を使用しても問題ありません。」

そして記事リンクから410エラーコードの公式仕様
https://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.4.11

0
Bronwyn V