最近、Googleボットからサーバーへの週ごとのクロールリクエストを分析しました。これが同じグラフです。
重複したリクエストとは、同じページに対して1週間以内にgoogle-botが複数のリクエストを行った場合です。
ボットが行っている重複したリクエストの量が心配です。これにより、ウェブサイトをクロールするための帯域幅が大幅に無駄になります。ボットから要求されているページを分析すると、価値の低い(コンテンツが少なく、SERPが低い)ページに対して多くの要求が行われていることがわかりました。このようなページは、フィルターの特定の組み合わせのリスト結果に似ており、ほとんどの組み合わせはあまり価値がありません。
そのため、google-botがこのような価値の低いページにアクセスするのをブロックし、価値の高いサイトマップページに集中することが賢明かどうかを考えています。
サイトマップからそのようなページを既に削除していました。
私が理解しているように、クロールすべきではない(それほど頻繁ではない)重要度の低いページがたくさんあります。
サイトマップからページを削除するのに役立つかどうかはわかりません。サイトマップは、クロールされるページの選択ではありません。検索エンジンがサイトマップ外のリンクを見つけると、それらも同様にクロールされます。
サイトマップでこれらのページに低い優先度を割り当てることを検討しましたか? Google Webmasters Blogのこのソース は、「priority」属性が検索エンジンのページの優先順位付けに役立つことを示します。 SEOに関するいくつかの記事では、「優先度」の低いページのクロール頻度が低くなると主張しています。