Google Search Consoleが、Screaming Frogクロールが検出するよりも何倍も多くのインデックス付きURLを報告するのはなぜですか？

Question

Screaming Frogでウェブサイトをクロールしたところ、約6,000の内部URLと4,000の外部URLがあります。次に、GSCを調べたところ、Googleが5万ページのインデックスを作成したことがわかりました。

そんなことがあるものか？

GeoffAtkins · Answer

パラメータに応じてコンテンツを提供するページは、本質的に重複するコンテンツがない限り、Googleにとって必ずしも問題ではありません。

これを処理する方法はいくつかあります。

Noindex：この重複したコンテンツを提供する結果ページにno-indexタグを追加するか、robots.txtファイルでスパイダーを許可しません。これは、これらのページをインデックスに含めないようにGoogleに指示します。これをフォローアップするには、Google Search Consoleを使用して手動でこれらのページをインデックスから削除します（いずれにしても、しばらくするとページは消えます）。
https://support.google.com/webmasters/answer/93710?hl=ja

rel = "canonical"：これらのページが本質的に別のページのコピーであることをGoogleに指定して、Googleが理解できるようにします。これらのページは、他の場所と同じデータにアクセスするための単なる別のURLと見なす必要があります。
https://support.google.com/webmasters/answer/139066?hl=ja

URLパラメータツール：Google Search Consoleには、パラメータを説明し、Googlebotがコンテンツの複製につながるパラメータを確実に理解できるようにするパラメータツールが含まれています。これは、URL内のGET変数に非標準のセッションID値が格納されている場合に役立ちます。 https://support.google.com/webmasters/answer/6080548?hl=ja