web-dev-qa-db-ja.com

Googlebotが古い/ nonexistent(410)リソースをクロールし続け、クロールの異常を表示し、その後にページのインデックスを解除する

Googlebotが「rnd.js?asdfasdfasfs3423」をクロールし続けることにより、常にクロール異常が発生しています(ハッシュはページロードごとにランダムです)。すべてのページからrnd.jsを削除してから3か月が経過していますが、googlebootはこのrnd.jsの取得を要求しており、ウェブマスターツールでクロールの異常を示しています(時刻と日付はほぼ2番目まで一致しています) nginxログ)。

Googlebotに親htmlファイルを強制的に取得させ、その正確な時間に収集したものからのみリソースをリクエストし、古いhtmlの「古い」バージョンに依存しないようにするために何ができるか。さらに、Googleが参照として追加するURLの一部は、httpのページがすべて301からhttpsであるため、もう存在しません。そのため、Googleがhttpバージョンをクロールしてrnd.jsを見つけただけではありません。

すべてのrnd.jsリクエストが3か月以上にわたって410を返していますが、クロールの異常は解消されていません。 nginxログに表示されるすべてのrnd.jsリクエストは、Googleウェブマスターツールにミラーリングされます。つまり、これらのrnd.jsは、発生しているクロール異常の原因です。

提案や情報は大歓迎です。

3
Jason McNoles

Googlebotがサイトで有効なURLを検出してクロールすると、クロールが停止されます[〜#〜] [〜#〜]。そのURLにどのステータスコードを付けてもかまいません。 Googlebotは定期的に戻ってこれらのURLをチェックし、以前はそこにあったコンテンツが返されることを期待しています。 15年間リダイレクトしているURLがあります。彼らへのリンクはもうありません。 Googlebotはまだ時々それらをチェックしに来ます。

"410 Gone"ステータスを使用するのが最も適切なステータスです。ただし、 Googleは「404見つかりません」とほぼ同じように扱うとしています 。つまり、404よりも少し早く検索インデックスから削除される可能性がありますが、Googlebotは引き続き404 Not Foundと同じ頻度でURLをチェックし続けます。

Google Search Consoleにリストされている異常をクロールしても、サイトに害はありません。それらが実際に問題であるかどうかを評価できるように、Googleから報告されます。 GoogleのJohn Muellerには これは404エラーについて言う

無効なURLでの404エラーは、サイトのインデックス作成やランキングに悪影響を与えることはありません。 1億個でも1000万個でも問題ありません。サイトのランキングに影響を与えることはありません。 http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html

同じことが「410」エラーにも当てはまります。それらは実際に問題がある場合は修正できるようにリストされていますが、URLがそのステータスを返すことになっている場合は無視できます。

親ページがこれらのリソースに3か月間リンクしていないと言う場合、発生しているのはレンダーキューのクロールの遅延です。 Googleは2つのクロールモードを使用します。

  1. ソースコードに基づくインデックス付きのHTMLクロール
  2. リソースもフェッチされるレンダリングクロール、およびレンダリングされるものにはインデックスが付けられます。

レンダリングモードは、Googlebotにとってはるかに高価です。レンダリングするページのキューが数か月あります。 Googlebotは、数か月前にHTMLをフェッチするページをレンダリングしようとしています。 JavaScriptがなくなったためにページをレンダリングできない場合、メッセージが表示され、親ページのインデックスが解除されることがあります。

つまり、ページを変更した後でも、ページをレンダリングするために必要なリソースを数か月間安定させておく必要があるため、それらのリソースは必要ありません。その問題を修正する方法は2つだけだと思います。

  1. JavaScriptを元に戻し、Googlebotが数か月前のページをレンダリングできるようにします
  2. Google Search ConsoleのURL検査ツールを使用して、それらのページをフェッチして(一度に1つずつ)レンダリングし、最新バージョンを取得します。
1

私の人生で最初に目にしたのは、Googlebotが410のURLに2回アクセスすることです。良い発見-知っておきたい!

しかし、私はこの動作の原因を知っていると思います-これはパラメーターとして表示される常に新しいハッシュである必要があります。 Googlebotは常に新しいURLであると「考え」、クロールします。パラメータ化をオフに設定すると、すぐにクロールが停止します。

0
Evgeniy