技術的なSEO監査では、Google Search ConsoleとScreamingFrogクロールの両方を使用してステータスエラーを確認しましたが、Googleが認識しているページ数と、ScreamingFrogが検出したページの数には大きな違いがあります(制限や設定の変更なし)くも)。
ScreamingFrogには350ページ、GSCには7.2Kページあります。さまざまなステータスエラーについても同じであり、どのツールが何を見つけるかについて不一致があります。たとえば、GSCは16個の404を検出しますが、ScreamigFrogが検出する404とはまったく異なるページです(1つだけがオーバーラップします)。
同じことを経験しましたか?
ScreamingFrog Spider設定で2時間以上遊んだ後、私ができる最善のことは、クロールされたページを700に増やすことでした(Webサイトの7.5Kから)。すべての既知のページをGSCから抽出し、クロール用にScreamingFrogのリストモードでアップロードしました。
欠点は、一部のページタイプではGSCが最初の1000ページしか提供しなかったことですが、それ以外は機能しました-7.5Kから6.5Kをクロールすることができました。
特にDan Sharpに協力してくれてありがとう。とても有難い。
GSCとSFが異なる404 URLを検出しているのは、おそらくサーバーの応答障害が原因です。 Webクローラーの1つがページを読み込もうとしても応答しない場合、404が報告されます。これは、Webホストの帯域幅またはサーバーが過負荷の場合に発生する可能性があります。
Webページのステータスを確認するには、次のようなヘッダーステータスチェッカーを使用できます。 http://tools.seobook.com/server-header-checker/
ページがサーバーからロードされる限り、真のヘッダーステータスが表示されます。
クロールとGSC(またはGoogleサイト:インデックスクエリ)が一致しない一般的な理由についてFAQをまとめました-
また、言及する価値がある、上記のコメントは時代遅れです-SEO Spiderは、検索エンジンと同じ方法でページをレンダリング(および実行されたJavaScriptを参照)できます。
お役に立てば幸いです!
ところで-私は自分がScreaming Frogの創設者であることを明らかにするつもりだと思います。これはFAQであり、直接的な質問に回答するものであり、プロモーションを目的としたものではありません。
たとえば、GSCは16個の404を検出しますが、ScreamigFrogが検出した404とはまったく異なるページです(1つだけが重複しています)
これらのツールがURLを検出する方法が異なるため、これらのさまざまなツールによって報告される404は常に異なります。
Screaming Frog(SF)は、特定のルートURLからサイトをスパイダーします。そのため、報告された404は、存在しないページにリンクしている内部リンクのみで構成されます。
一方、GSCは、外部/サードパーティサイトからのインバウンドリンクがサイト上の存在しないページにリンクしている404も報告します。これは巨大かもしれません。
サイトのページを(そのページへのすべての内部リンクと共に)削除すると、SFがこれを404として報告することは期待できません(リンクがないため)。ただし、GSCが以前にこのページをクロールしていた場合は、(内部リンクがあるかどうかに関係なく)404としてレポートされることが予想されます-これは正しいです。
GSCには404のスーパーセット(SFで検出されたすべてを含む)が含まれると予想される場合がありますが、これはGoogleが内部リンク構造をクロールした時期と程度に依存します。