web-dev-qa-db-ja.com

Googlebotが特定の1つのページにアクセスするのをブロックする方法

私はこのIP:66.249.79.70によってスパムになりつつあり、このWebサイトはGoogleからのものであると言っています:https://ipinfo.io/66.249.79.70

入力ボックスの1つを埋めて、投稿を続けます。 。htaccessファイルを使用して、このボット(IPアドレス:66.249.79.xxx)が特定のページ(たとえば、www.example.com/blocked.php)にアクセスするのをブロックしたいのですが、どうすればよいですか? IPアドレスを完全にブロックしたくはありませんが、それはGoogleからのものであることを疑っていないからです。

2
arunwebber

これは実際のGooglebotのように見えるため、アクセス/クロールをブロックする推奨方法は/robots.txtを使用することです:

User-agent: googlebot
Disallow: /blocked.php

ただし、.htaccessを使用してこのIPをブロックしたい場合は、ルート.htaccessファイルの上部近くで次のようなことができます。

RewriteEngine On
RewriteCond %{REMOTE_ADDR} =66.249.79.70
RewriteRule ^blocked\.php - [F]

上記のIPアドレスを持つユーザーが/blocked.phpにアクセスしようとすると、「403 Forbidden」が返されます。 "user/bot"はまだtriesでリクエストを行うことでURLにアクセスしますが、robots.txtではリクエストを行うべきではありません(robots.txtに従う場合)標準」。Googlebotはこれを行います)。

ただし、Googlebotは異なるIPアドレスからクロールできるため、将来的には更新する必要がある場合があることに注意してください。


66.249.79.xxxで示されるIPアドレスの範囲をブロックしたい場合は、上記のconditionを次のように変更できます。

RewriteCond %{REMOTE_ADDR} ^66\.249\.79\.

ただし、これはGooglebotだけではなく、上記の特定のIPアドレスをチェックするよりもGooglebotをブロックすることに成功しない可能性があります(Googlebotは必ずしも連続IPブロックでクロールする必要はありません)。

5
MrWhite