web-dev-qa-db-ja.com

通常、検索ボットはどれくらいの頻度でWebサイトにアクセスしますか?

数週間前、私はウェブサイトを完成させ、そのサイトマップをGoogleに提出しました。これまでのところ、ほとんどのURLが正常にインデックス付けされ、実際の問題は発生していません。

ウェブサイトの今後のクロールのために検索エンジンが戻ってきた場合、最後のクロール以降に変更があったかどうかに関係なく、サイトマップ内のすべてのリンクを体系的に調べますか?逆に、関連するボットはサイトマップにアクセスし、「最終更新日」の下の日付を特定し、その日付が最後にボットにアクセス/クロールされた日付より後にある場合にのみURLをクロールしますか?後者は、私にとってより理にかなっています。

サイトマップを送信したとき、最初の数週間で各クロールに一貫性がなかったことに気付きました。ある日には1,000ページ以上がクロールされ、他の日には10〜20ページしかクロールされません。

「クロールレート」は現在着実に向上していますが、検索ボットによってすぐに取得される他のページの前に作成されたにもかかわらず、まだインデックスに登録されていないページがあります。

.htaccessファイルをチェックし、ページがnoindexedされていないことを確認しました。

1
Craig

通常、検索ボット決して停止しない Webサイトにアクセスします。 Googlebotは通常、毎日いくつかのページをダウンロードします。実際のユーザーとほぼ同じ数のページを1日にダウンロードすることもあります。

検索ボットは、サイト全体を一度にクロールすることはほとんどありません。むしろ、それぞれ独自のスケジュールでページを再クロールします。彼らは、ページの人気度と、検索ボットがページの変化を観察する頻度に基づいて、ページの再クロールをスケジュールします。

Googleは、多くのウェブマスターがそれらを確実に最新に保てないため、ほとんど サイトマップのlastmodフィールドとchangefreqフィールドを無視する と言っています。実際、Googleはサイトマップをまったく使用していません。サイトマップを作成する主な利点は、Google Search Consoleに追加の統計情報が表示されることです。サイトマップは通常、Googlebotが他の方法ではクロールしないページをクロールすることはなく、ランキングにも役立ちません。 The Sitemap Paradox をご覧ください。

ほとんどのサイトでは、インデックスに登録されないページがいくつかあります。通常、Googleがクロールを行っていないためではありません。むしろ、Googleは一部のページをインデックスに登録しないことを選択しています。 検索エンジンがコンテンツのインデックスを作成しないのはなぜですか? をご覧ください。Googleがインデックスを作成しないことを選択したページは通常、次のいずれかです

  • 複製する
  • それほど多くないコンテンツ
  • 質の悪い
  • ユーザーが検索するトピックをターゲットにしない
  • 低い評判(PageRank)
4

私が自分のサイトで個人的に気づいたのは、Googleが1つのサイトを1日に何千ページもクロールしたが、それが1週間にわたってクロールを停止したとき、それが決定したことです:

  1. 私のサイトは面白かったし、クロールする価値があるかもしれない
  2. Googleが毎日戻ってくるのは面白くないことがわかった。
  3. しかし、Googleが1週間か2週間で戻ってきて、それが良くなったかどうかを確認するのは十分興味深い。

Googleが毎日サイトをクロールし始めるのは、Googleが大量のトラフィックを送信し始めていることがわかったときです。私のサイトが1日または1週間大規模にクロールされ、翌日または1週間はまったくクロールされないのは、Googleが興味を持っているがまだ多くのトラフィックを送りたくないからだと思われます。クロールレートが低いサイトを改善したとき、Googleは毎日サイトをクロールし、より多くのトラフィックを送信し始めました。

その結果、これは、サイトを次のレベルの改善に導くためにあなたが何ができるかを本当に知りたいかもしれないことを示していると思います。 Googleはあなたに興味を持っていますが、もっと明るくする必要があると思うかもしれないからです。

これは、私が経験した同様のクロール速度の問題からの私の考えと経験であり、それらをどのように解釈したかです。

0
Michael d