ほぼ2年前の2018年の初め、サイトから不要になったページ、関連したページ、維持されていたページなどを廃止しました。これを行うには、410-Gone HTTPステータスを返します。驚いたことに、Googlebotはまだ非常に定期的にこれらのページに戻ってきており、410を何度も何度も取得しています。 2年間。チェックしましたが、これらのページはインデックスに登録されていませんが、クローラーがまだページが「使用可能」であると考えている理由について知りたいのですが。 410が実際にどのように機能するかを説明する優れたブログ/ディスカッションを誰かが知っていますか?
Googlebotが有効なURLを見つけると、それを決して忘れません。定期的にクロールするために常に戻ってきます。返されるステータスは関係ありません。まだリンクがあるかどうかは関係ありません。 15年間、301の永続的なリダイレクトを行っているURLがあります。 Googlebotはまだ時々それらをクロールします。
ロジックは、古いURLが時々復活するということのようです。 Googlebotは時々チェックするかもしれません。 URLへのリンクの数によって、URLがクロールされる頻度が決まります。 URLへの内部リンクと外部リンクをすべて削除すると、クロール頻度が大幅に低下します。
Googlebotには、リンクのない古いURL用の特別なクロールモードもあります。 Googlebotが1日の間に自分のサイトから何百ものそのような古いURLを要求することがあります。 Googlebotがこのクロールモードの場合、URLは長さ順にクロールされているように見えます。最短のURLが最初にクロールされます。
これは心配する必要はありません。
良いブログ/ディスカッションに関しては、ここにあります
https://www.searchenginejournal.com/google-404-status/254429/
「404エラーが存在しないページに移動する場合、それらを410にする必要がありますか?」
ジョン・ミューラーは答えた:
「私たちの観点から見ると、中長期的には、404は410と同じです。したがって、どちらの場合も、これらのURLをインデックスから削除します。
通常、これらのURLのクロールを少し減らして、存在しないことがわかっているもののクロールに時間をかけすぎないようにします。
ここでの微妙な違いは、410が404よりも少し早く落ちることがあることです。しかし、通常、私たちは数日程度で話しています。
したがって、コンテンツを自然に削除するだけの場合は、どちらを使用しても問題ありません。このコンテンツをずっと前に削除した場合は、すでにインデックスに登録されていないため、404または410を使用しても問題ありません。」
そして記事リンクから410エラーコードの公式仕様
https://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.4.11