私は月に数百万ページビューのウェブサイトを持っています。
数日前から、Googlebotという名前のボットが非常に頻繁にサイトにリクエストを送信します。 1分間で数百のリクエストをサイトに送信し、数時間待機してから、繰り返しリクエストを繰り返します。
そのユーザーエージェントはMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
であり、IPアドレスの一部は66.249.64.208
、66.249.64.135
、および66.249.64.223
です。これらは偽物ではないようです。ただし、 Google Page Console と言う1日あたりのクロールされたページは平均25です。
これらのアクセスは何ですか?
IPアドレスの例はGoogleです。ただし、過去数年で変更された可能性がありますが、2秒に1回以下のリクエストである必要があります。記録のために、Googleは常にかなり適切に動作し、常に2秒ごとに1リクエストのルール内にとどまっています。それでも、1日を通して小さなリクエストが頻繁に発生することは珍しくありません。
Googleから引用した平均値は、インターネット上のすべてのサイトのものです。私は1日あたり49,000以上のページをクロールしてきましたが、注意を払っていなかったときはもっと確実です。 Googleは私のサイトに何万もの定期的にpingを送信し、一度に数日だけ一時停止します。 Googleが留まった最長期間は5〜6日でした。それはすべて、サイトのサイズ、鮮度、人気、サイトの速度に依存します。
クロールレートは一時的にのみ制御できます。シーシュ! Google Search Console(ウェブマスターツール)を使用してクロールレートを設定できますが、Googleは90日間のみそのレートを受け入れます。 Googleは通常どおり、サイトの速度に応じて安全な速度でサイトのクロールを開始します。
ほとんどの人は、Googleの高速化を望んでいます。
ほとんどの人は、Googleのクロール速度を上げたいと考えています。個人的に、私は気にしませんでした。ただし、Googleの速度を落としたい場合は、2つの解決策しかありません。 1つ目はSearch Consoleです。このページの下部でその方法を確認できます。 https://support.google.com/webmasters/answer/48620?hl=en 他のオプションについても言及していますそれは永久的かもしれないので助言しないでください。そのオプションはリクエストをここに提出しています: https://www.google.com/webmasters/tools/googlebot-report 両方のオプションにはアカウントが必要です。
クロール遅延ディレクティブ を頼りにしないでください。 Googleがそれに注意を払っているかどうかは明らかではありません。実際、もし私が賭け人なら、私はそれに反対するでしょう。 Googleshouldこのディレクティブに注意してください。それは彼らがサポートする標準の一部です。
これらのアクセスは、ページリダイレクトまたは画像などの補足ドキュメントファイルである可能性があります。各ページには、外部JavaScriptファイル、CSSファイル、画像ファイルなど、ページを完成させるためにロードする必要がある多数のアセットが添付されている可能性があります。
Closetnocが言ったように、クロール速度を制限するためにGoogle検索コンソールを試すことができますが、それでも十分でない場合は、存在しない古いページを参照するリクエストに410ステータスコードを発行することを検討してください。多くの場合、リダイレクトが意味を成し、ゲストを支援する場合は、古いURLを新しいURLにリダイレクトします。
Googleがまだばかげている場合は、サーバーファイアウォールにアクセスし、IPアドレスブロックをフィルタリングすることでGoogleが行うことができるリクエストを制限しますが、Googleが1秒あたり10件のリクエストを行うのを止めることはお勧めしません。
Robots.txtファイルに、クロール遅延ディレクティブを追加します。
ユーザーエージェント:*クロール遅延:1
これに従わないIPはブロックする必要があります。
私の理解では、66.249の範囲にあるものはすべてGoogleです。