web-dev-qa-db-ja.com

Google Search ConsoleとScreamingFrogの既知のページ数の大きな不一致

技術的なSEO監査では、Google Search ConsoleとScreamingFrogクロールの両方を使用してステータスエラーを確認しましたが、Googleが認識しているページ数と、ScreamingFrogが検出したページの数には大きな違いがあります(制限や設定の変更なし)くも)。

ScreamingFrogには350ページ、GSCには7.2Kページあります。さまざまなステータスエラーについても同じであり、どのツールが何を見つけるかについて不一致があります。たとえば、GSCは16個の404を検出しますが、ScreamigFrogが検出する404とはまったく異なるページです(1つだけがオーバーラップします)。

同じことを経験しましたか?

1
dtodorova

ScreamingFrog Spider設定で2時間以上遊んだ後、私ができる最善のことは、クロールされたページを700に増やすことでした(Webサイトの7.5Kから)。すべての既知のページをGSCから抽出し、クロール用にScreamingFrogのリストモードでアップロードしました。

欠点は、一部のページタイプではGSCが最初の1000ページしか提供しなかったことですが、それ以外は機能しました-7.5Kから6.5Kをクロールすることができました。

特にDan Sharpに協力してくれてありがとう。とても有難い。

0
dtodorova

GSCとSFが異なる404 URLを検出しているのは、おそらくサーバーの応答障害が原因です。 Webクローラーの1つがページを読み込もうとしても応答しない場合、404が報告されます。これは、Webホストの帯域幅またはサーバーが過負荷の場合に発生する可能性があります。

Webページのステータスを確認するには、次のようなヘッダーステータスチェッカーを使用できます。 http://tools.seobook.com/server-header-checker/

ページがサーバーからロードされる限り、真のヘッダーステータスが表示されます。

2
Michael d

クロールとGSC(またはGoogleサイト:インデックスクエリ)が一致しない一般的な理由についてFAQをまとめました-

https://www.screamingfrog.co.uk/seo-spider/faq/#why-does-the-number-of-urls-crawled-not-match-the-number-of-results-indexed -in-google-or-errors-reported-within-google-webmaster-tools

また、言及する価値がある、上記のコメントは時代遅れです-SEO Spiderは、検索エンジンと同じ方法でページをレンダリング(および実行されたJavaScriptを参照)できます。

お役に立てば幸いです!

ところで-私は自分がScreaming Frogの創設者であることを明らかにするつもりだと思います。これはFAQであり、直接的な質問に回答するものであり、プロモーションを目的としたものではありません。

2
Sharp

たとえば、GSCは16個の404を検出しますが、ScreamigFrogが検出した404とはまったく異なるページです(1つだけが重複しています)

これらのツールがURLを検出する方法が異なるため、これらのさまざまなツールによって報告される404は常に異なります。

Screaming Frog(SF)は、特定のルートURLからサイトをスパイダーします。そのため、報告された404は、存在しないページにリンクしている内部リンクのみで構成されます。

一方、GSCは、外部/サードパーティサイトからのインバウンドリンクがサイト上の存在しないページにリンクしている404も報告します。これは巨大かもしれません。

サイトのページを(そのページへのすべての内部リンクと共に)削除すると、SFがこれを404として報告することは期待できません(リンクがないため)。ただし、GSCが以前にこのページをクロールしていた場合は、(内部リンクがあるかどうかに関係なく)404としてレポートされることが予想されます-これは正しいです。

GSCには404のスーパーセット(SFで検出されたすべてを含む)が含まれると予想される場合がありますが、これはGoogleが内部リンク構造をクロールした時期と程度に依存します。

2
MrWhite