web-dev-qa-db-ja.com

AhrefsBotがWebサイトから削除されたページを要求するのはなぜですか?

私は自分のウェブサイト(WordPress)のログを確認していましたが、次のような行を見ました:

myWebsite:80 5.10.83.28 - - [17/Jan/2014:09:05:53 +0000] "GET myUrl == HTTP/1.1" 404 5716 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"

そのため、AhrefsBotというボットがmyUrlにアクセスしていました。

問題は、数週間前にmyUrlページを削除したことです。では、なぜこのボットがまだ要求しているのを見ているのですか?

特にそれにリンクするページがないと確信している場合、どのようにしてmyUrlというURLを見つけましたか?そして、このような404ページをどのように回避するのですか?

4
4m1nh4j1

ボットが削除されたページにアクセスしようとする理由はいくつか考えられます。

  1. ボットは、別のWebサイトからそのページへのリンクをたどりました。ボットはリファラーを頻繁に省略しますので、これが当てはまるかどうかを判断するのは困難です。問題のボットがそのキャッチフレーズの一部として「バックリンクチェッカー」を持っていることを考えると、これは考えられる原因のようです。
  2. ボットは、ページが存在している間にページを訪問し、新しい発見ではなく独自のデータベースに基づいて再クロールしていました。これも十分に一般的です。 404を検出すると、データベースからドロップする必要があります。
  3. あなたのサイトのどこかに実際にはまだリンクがあり、あなたはそれを逃しました。
  4. ボットは、リンク分析を行うときにエラーを出しました。ほとんどのボットは、JavaScriptなどでURLを見つけるためにさまざまなヒューリスティックを使用します。これらはかなりの程度の誤検知をもたらす傾向があり、ボットが存在しないページをクロールする原因となる可能性があります。 「myUrl」が何であるかを言わないので、それがここに当てはまるかどうかを判断するのは難しいです。

ボットの動作は通常、見えない要因に依存するため、完全に合理的であるとは思われないことがよくあります。 404がトリガーされるのを絶対に防ぐ方法はありません。

4
Kris

2つの理由が考えられます。

  1. sitemap.xmlにはまだこのURLが含まれています。それを見つけて削除します。
  2. サイトの一部のページには、このURLがリンクとして含まれています。リンクを見つけて削除するには、Webクローラーでサイトをクロールします。
1
Oleg