web-dev-qa-db-ja.com

GoogleBotが1日3,000回までページをクロールする

ウェブサイトの場合、GoogleBotは1つの特定のURLを毎日1,000回以上クロールします(主に1,500〜3,000の間、場合によってはそれ以上)。

Googlebot IPは実際のGoogleのものです(例:66.249.76.21)。

この奇妙な(?)動作は(少なくとも)2年間続いた。最近、HTTPからHTTPSに変更しましたが、それでも同じです...初めてこの動作に出会ったとき、Webページにはフォームが含まれていました。GoogleBotは、何千ものGETおよびPOST非常に短い期間でしたが、フォームがキャンセルされたときにこれらのリクエストを突然停止しました...しかし、後でフォームを持つ別のページから再試行しました。

このURLをロボットに禁止すると、しばらくして、別のURLがGoogleBotによって「選択」され、何度も何度もクロールされます(多くの場合、1日の同じ期間に)。最後の「高度にクロールされた」には、フォームが含まれていません。

数日前、別のテストを行いました。高度にクロールされたURLは302をホームページに送信します。

結果:GoogleBotは302に続きますが、ホームページからのファイルやリンクには従いません:1000回以上毎日同じGETリクエストを繰り返し送信します。

その結果、クロール予算の主要部分はこの単一のURLに無駄になります...他のロボットにはこの動作がありません。

あなたはそのような特異な観察に会ったことがありますか?それは一種の「セキュリティ」テストでしょうか?

何をすべきか考えていますか?

3
frederic Laudet

Webサイトのサイトマップが既にある場合は、特定のchangefreqキーを使用してそのページを追加してみてください。例えば:

<?xml version="1.0" encoding="UTF-8"?>
<urlset
      xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
            http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
  <loc>http://example.com/mypage</loc>
  <changefreq>weekly</changefreq>
  <priority>1.00</priority>
</url>
</urlset>

ページがhttp://example.com/mypageの場合。 Googleウェブマスターツール を使用してこのサイトマップをGoogleに送信する必要があります。ここでも Googlebotクロールレートを変更する を使用できます。

1
JorgenPhi