500万ページの巨大なWebサイトがあります。現在、Googleは1日あたり約10,000ページのインデックスを作成しています。これは非常に遅く、まだインデックスに登録できないページがたくさんあります。クロール速度の上限は何ですか?
サーバーの応答時間を改善することで、2ページ/秒のクロール速度を実現できることがわかりました。各ページは可能な限り高速に応答する必要があります。これには、ガベージコレクタのチューニング、dbのチューニング、およびコードのチューニングが必要になる場合があります。平均応答時間が50ミリ秒/秒よりも優れている場合、Googleは2ページ/秒でインデックスを作成します。これは実験的な事実です。
インデックス作成の最大速度は1秒あたり10回です。これは、GoogleによるStackOverflowのインデックス作成の速度です( this を参照)。
Googleのクロールレートは次の関数です。
さらに、Googlebotにはいくつかの異なるクロールモードがあります。
その結果、サイトのクロールを高速化する最善の方法は、受信リンクを取得してページランクを上げることです。
ユーザーがページをクロールしていて、検索結果で見つからない場合、クロール速度は問題になりません。これは、あなたのウェブサイトが、Googleがnotインデックスに必要とする低品質のコンテンツでいっぱいのように聞こえます。これは元のコンテンツですか?高品質のコンテンツですか? Googleがあなたのページを掲載していないことは、掲載されていないことを示しています。