Google Search ConsoleとScreamingFrogの既知のページ数の大きな不一致

Question

技術的なSEO監査では、Google Search ConsoleとScreamingFrogクロールの両方を使用してステータスエラーを確認しましたが、Googleが認識しているページ数と、ScreamingFrogが検出したページの数には大きな違いがあります（制限や設定の変更なし）くも）。

ScreamingFrogには350ページ、GSCには7.2Kページあります。さまざまなステータスエラーについても同じであり、どのツールが何を見つけるかについて不一致があります。たとえば、GSCは16個の404を検出しますが、ScreamigFrogが検出する404とはまったく異なるページです（1つだけがオーバーラップします）。

同じことを経験しましたか？

dtodorova · Accepted Answer

ScreamingFrog Spider設定で2時間以上遊んだ後、私ができる最善のことは、クロールされたページを700に増やすことでした（Webサイトの7.5Kから）。すべての既知のページをGSCから抽出し、クロール用にScreamingFrogのリストモードでアップロードしました。

欠点は、一部のページタイプではGSCが最初の1000ページしか提供しなかったことですが、それ以外は機能しました-7.5Kから6.5Kをクロールすることができました。

特にDan Sharpに協力してくれてありがとう。とても有難い。

Michael d · Answer

GSCとSFが異なる404 URLを検出しているのは、おそらくサーバーの応答障害が原因です。 Webクローラーの1つがページを読み込もうとしても応答しない場合、404が報告されます。これは、Webホストの帯域幅またはサーバーが過負荷の場合に発生する可能性があります。

Webページのステータスを確認するには、次のようなヘッダーステータスチェッカーを使用できます。 http://tools.seobook.com/server-header-checker/

ページがサーバーからロードされる限り、真のヘッダーステータスが表示されます。

Sharp · Answer

クロールとGSC（またはGoogleサイト：インデックスクエリ）が一致しない一般的な理由についてFAQをまとめました-

https://www.screamingfrog.co.uk/seo-spider/faq/#why-does-the-number-of-urls-crawled-not-match-the-number-of-results-indexed -in-google-or-errors-reported-within-google-webmaster-tools

また、言及する価値がある、上記のコメントは時代遅れです-SEO Spiderは、検索エンジンと同じ方法でページをレンダリング（および実行されたJavaScriptを参照）できます。

お役に立てば幸いです！

ところで-私は自分がScreaming Frogの創設者であることを明らかにするつもりだと思います。これはFAQであり、直接的な質問に回答するものであり、プロモーションを目的としたものではありません。

MrWhite · Answer

たとえば、GSCは16個の404を検出しますが、ScreamigFrogが検出した404とはまったく異なるページです（1つだけが重複しています）

これらのツールがURLを検出する方法が異なるため、これらのさまざまなツールによって報告される404は常に異なります。

Screaming Frog（SF）は、特定のルートURLからサイトをスパイダーします。そのため、報告された404は、存在しないページにリンクしている内部リンクのみで構成されます。

一方、GSCは、外部/サードパーティサイトからのインバウンドリンクがサイト上の存在しないページにリンクしている404も報告します。これは巨大かもしれません。

サイトのページを（そのページへのすべての内部リンクと共に）削除すると、SFがこれを404として報告することは期待できません（リンクがないため）。ただし、GSCが以前にこのページをクロールしていた場合は、（内部リンクがあるかどうかに関係なく）404としてレポートされることが予想されます-これは正しいです。

GSCには404のスーパーセット（SFで検出されたすべてを含む）が含まれると予想される場合がありますが、これはGoogleが内部リンク構造をクロールした時期と程度に依存します。