web-dev-qa-db-ja.com

Googleのクロール速度-どのくらいの速度で移動できますか?

500万ページの巨大なWebサイトがあります。現在、Googleは1日あたり約10,000ページのインデックスを作成しています。これは非常に遅く、まだインデックスに登録できないページがたくさんあります。クロール速度の上限は何ですか?

2
stiv

サーバーの応答時間を改善することで、2ページ/秒のクロール速度を実現できることがわかりました。各ページは可能な限り高速に応答する必要があります。これには、ガベージコレクタのチューニング、dbのチューニング、およびコードのチューニングが必要になる場合があります。平均応答時間が50ミリ秒/秒よりも優れている場合、Googleは2ページ/秒でインデックスを作成します。これは実験的な事実です。

1
stiv

インデックス作成の最大速度は1秒あたり10回です。これは、GoogleによるStackOverflowのインデックス作成の速度です( this を参照)。

2
Zistoloen

Googleのクロールレートは次の関数です。

  • Pagerank-サイトの評判とインバウンドリンクが多いほど、クロールされます。サイト内で最も高いページ(ホームページなど)は、ページランクが高いため、より頻繁にクロールされます。
  • ページが変更される頻度-頻繁に変更されるページは、そうでないページよりも頻繁に再クロールされます。
  • サーバーの速度-Googlebotがダウンロードする1日あたりのページ数ではなく、ページのダウンロードに費やされる時間によって制限されるようです。ページを小さくし、サーバーの速度を上げることで、Googlebotのクロールを高速化できます。

さらに、Googlebotにはいくつかの異なるクロールモードがあります。

  • 再クロールモード-以前にアクセスしたページに戻ってアクセスします。
  • 新鮮なクロールモード-サイトの新しいセクションにある多くの新しいページをクロールします。サイトのページランクが高いほど、より多くのページがクロールされます。
  • 古いページモード-Googlebotは地下にある古いリンクのボックスを見つけ、「楽しい」ためだけにそれらを探します。これらのページは多くの場合、もはや存在しないすべてのページであり、他のページにリダイレクトされます。多くの場合、ページランクはなく、URL長の順にクロールされます。

その結果、サイトのクロールを高速化する最善の方法は、受信リンクを取得してページランクを上げることです。

2

ユーザーがページをクロールしていて、検索結果で見つからない場合、クロール速度は問題になりません。これは、あなたのウェブサイトが、Googleがnotインデックスに必要とする低品質のコンテンツでいっぱいのように聞こえます。これは元のコンテンツですか?高品質のコンテンツですか? Googleがあなたのページを掲載していないことは、掲載されていないことを示しています。

1
John Conde