ボットが私のサイトのリンクを推測しようとするのを防ぐ方法

Question

最近インストールしたログウォッチレポートには、次のことが示されています。

--------------------- httpd Begin ------------------------ 0.78 MB transferred in 5864 responses (1xx 0, 2xx 4900, 3xx 0, 4xx 964, 5xx 0) 160 Images (0.16 MB), 857 Content pages (0.62 MB), 4847 Other (0.00 MB) Requests with error response codes 404 Not Found /%E2%80%98planeat%E2%80%99-film-explores-l ... greenfudge-org/: 1 Time(s) /10-foods-to-add-to-the-brain-diet-to-help ... -function/feed/: 1 Time(s) /10-ways-to-reboot-your-body-with-healthy- ... s-and-exercise/: 1 Time(s) /bachmann-holds-her-ground-against-raising ... com-blogs/feed/: 1 Time(s) /behind-conan-the-barbarians-diet/: 1 Time(s) /tag/dietitian/: 1 Time(s) /tag/diets/page/10/: 1 Time(s) /tag/directory-products/feed/: 1 Time(s) /wp-content/uploads/2011/06/1309268736-49.jpg: 1 Time(s) /wp-content/uploads/2011/06/1309271430-30.jpg: 1 Time(s) /wp-content/uploads/2011/06/1309339847-35.jpg: 1 Time(s)

ここに私のメモ：上記のようなこの種のリクエストは本当にたくさんありますが、わかりやすくするためにいくつか貼り付けました。

 A total of 12 ROBOTS were logged Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 2 Time(s) Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 5 Time(s) Twitterbot/1.0 1 Time(s) Mozilla/5.0 (compatible; AhrefsBot/2.0; +http://ahrefs.com/robot/) 4 Time(s) Sosospider+(+http://help.soso.com/webspider.htm) 3 Time(s) msnbot/2.0b (+http://search.msn.com/msnbot.htm)._ 1 Time(s) Mozilla/5.0 (compatible; MJ12bot/v1.4.2; http://www.majestic12.co.uk/bot.php?+) 1 Time(s) msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) 77 Time(s) Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com) 1 Time(s) Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 17 Time(s) Baiduspider+(+http://www.baidu.com/search/spider.htm) 11 Time(s) Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8 1 Time(s) ---------------------- httpd End -------------------------

だから、これはボットのようなものだと思います（そして上記のボットの可能性があります）。コンテンツを見つけるためにリンクを推測しないようにするにはどうすればよいですか？

編集：私はVPSサーバーを所有しているので、そこにはたくさんのドメインがあります。どのドメインで特定の404が発生したかをどのように知ることができますか？たとえば、次の行のように：/ tag/dietitian /

Dan · Accepted Answer

実際には、通常のユーザーがリンクを推測するのを止めることができる以上のことはしません。コンテンツを正しく保護すれば、これはとにかく問題にはなりません。

あいまいなリンクは、物事を隠すための安全な方法ではありません。

正しく構成されたrobots.txtがあることを確認できます。これにより、ほとんどの正当なボットが停止します。

Janne Pikkarainen · Answer

1つの方法は、 fail2ban を使用して、ニーズに合わせて構成することです。つまり、他の機能の中でも、fail2banはApacheアクセスログを調整でき、X回のY種類の一致の後、クライアントIPをXX分間ブロックすることで、アクセスクライアントにZ分のペナルティを課すことができます。

通常、ボットを怖がらせるには十分ですが、十分に注意しないと、正当なユーザーをブロックする可能性があることに注意してください。

AD7six · Answer

検索エンジンのクローラーはリンクを推測しません。nofollowまたはrobots.txtのルールに惑わされない限り、リンクをたどるだけです。

検索エンジンのボットから存在しないものに対するリクエストがある場合、クローラーはそれを指す一般にアクセス可能なページ上のリンクをたどっています。正しいアクションは、参照を修正/削除することです。

悪意のあるボットの場合、できることはそれを検出してアクセスをブロックすることだけです。ボットが自分自身をアナウンスしている場合-それは簡単です。たとえば、書き換えルールでブロックできます。

user113226 · Answer

仮想ホスト情報をログに追加するか、仮想ホストごとに個別のログを使用できます

Apacheログファイルのドキュメントを参照してください。