web-dev-qa-db-ja.com

Googleが存在しないURLをクロールするのはなぜですか?

wordpressウェブサイトのライブトラフィックで、ゴーグルボットが存在しないページをクロールすることがわかります。

www.example.gr/search/search-results/password-reset%252Fpassword-reset/password-reset%252Fpassword-reset%252F&listview=2/?pg=6&dtype=prosfata&listview=2

www.example.gr/search/search-results/password-reset%252F&listview=1/password-reset/search/advanced-search/tag/katigoria/gaming/?pg=15&order=lcomdate&dtype=prosfata&listview=1

グーグルボットがこのリンクを発見した場所を見つけることはできませんが、クロールをグーグルする数千のほぼ唯一のリンクです。

これらのURLにnoindex、noffolwを追加しましたが、ボットスチールでクロールします。どうすればこれを止めることができますか?なぜこれらのURLのみをクロールするのですか?これにより、CPU使用量が多くなる可能性があります。

もう一つ質問。最近、ウェブサイトにキャッシュを追加しました。速度を向上させるために、キャッシュされたページをクロールしないでください。 「fetch as google」を使用すると、キャッシュされたページがクロールされないことがわかります。

2
Aris Gaster

Googlebotは、見つかったURLをクロールします。

  • 自社およびサードパーティのWebサイト上のリンク
  • URLのように見えるページ上のテキスト
  • URLのように見えるJavaScript文字列

自分のサイトをチェックして、これらのページへのリンクがあるかどうかを確認してください。そうでない場合は、おそらく他のサイトです。 Googleは クロールエラーレポート でGoogle Search Consoleのどのサイトを通知できるかを確認します。

できることの1つは、robots.txtを使用してディレクトリ全体のクロールを禁止することです。あなたの例に基づいて、/searchは不許可の素晴らしい候補です:

Disallow: /search

また、実際にGooglebotがクロールを実行していない可能性もあります。ウェブサイトの脆弱性を探そうとするのは、Googlebotを装ったボットである可能性があります。次の手順を使用してIPアドレスを確認することで、実際にGooglebotであるかどうかを確認できます。 IPアドレスが実際にGoogleのIPであるかどうかを識別する方法

実際にGooglebotでない場合は、.htaccessで使用されるIPアドレスをブロックできます。 IPによってVPNサーバーのIP全体をブロックする方法

2