AhrefsBotがWebサイトから削除されたページを要求するのはなぜですか？

Question

私は自分のウェブサイト（WordPress）のログを確認していましたが、次のような行を見ました：

myWebsite:80 5.10.83.28 - - [17/Jan/2014:09:05:53 +0000] "GET myUrl == HTTP/1.1" 404 5716 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"

そのため、AhrefsBotというボットがmyUrlにアクセスしていました。

問題は、数週間前にmyUrlページを削除したことです。では、なぜこのボットがまだ要求しているのを見ているのですか？

特にそれにリンクするページがないと確信している場合、どのようにしてmyUrlというURLを見つけましたか？そして、このような404ページをどのように回避するのですか？

Kris · Accepted Answer

ボットが削除されたページにアクセスしようとする理由はいくつか考えられます。

ボットは、別のWebサイトからそのページへのリンクをたどりました。ボットはリファラーを頻繁に省略しますので、これが当てはまるかどうかを判断するのは困難です。問題のボットがそのキャッチフレーズの一部として「バックリンクチェッカー」を持っていることを考えると、これは考えられる原因のようです。
ボットは、ページが存在している間にページを訪問し、新しい発見ではなく独自のデータベースに基づいて再クロールしていました。これも十分に一般的です。 404を検出すると、データベースからドロップする必要があります。
あなたのサイトのどこかに実際にはまだリンクがあり、あなたはそれを逃しました。
ボットは、リンク分析を行うときにエラーを出しました。ほとんどのボットは、JavaScriptなどでURLを見つけるためにさまざまなヒューリスティックを使用します。これらはかなりの程度の誤検知をもたらす傾向があり、ボットが存在しないページをクロールする原因となる可能性があります。「myUrl」が何であるかを言わないので、それがここに当てはまるかどうかを判断するのは難しいです。

ボットの動作は通常、見えない要因に依存するため、完全に合理的であるとは思われないことがよくあります。 404がトリガーされるのを絶対に防ぐ方法はありません。

Oleg · Answer

2つの理由が考えられます。

sitemap.xmlにはまだこのURLが含まれています。それを見つけて削除します。
サイトの一部のページには、このURLがリンクとして含まれています。リンクを見つけて削除するには、Webクローラーでサイトをクロールします。