ロボットを無視し、Nofollowがハニーポットに入らないようにする「良い」ボットを維持するには？

Question

クローラーをジャンクデータで満たすように設計された自己生成ハニーポットがあります。適切な「条約」とヘッダーで保護されているため、優れたボットの99％は離れています。今日では、SEMrushが何千ものページのゴミデータを見つけたようです。

理論的には、サイトをスニッフィングしようとする競合他社に統計情報を歪ませるため、これは素晴らしいことですが、実際にはSEMrushを使用しています。 SEMrushなどの便利なバッドボットがこのハニーポットにcい込むのを防ぐにはどうすればよいですか？ robots.txtとnofollowは効果がないようです。設定方法は次のとおりです。

ハニーポットファイルの名前はwp-admin（Wordpress）であるため、何かがヒットすることはありません（WPは使用しません）
Robots.txtは、すべてのトラフィックがURL example.com/wp-adminにアクセスしてはならないと述べています
すべてのページで、非インデックスの非UIディスプレイ：noindex/nofollowを含むnoneリンクがexample.com/wp-adminを指している
ハニーポットがロードされると、403禁止されたHTTPヘッダーがクライアントに設定されます
ハニーポットでは、nofollow/noindexのメタヘッダーが含まれます
ハニーポットがロードされた後、特定のものをブロックするCSSオーバーレイがあり、そこにいる人間にこれが何であるかを説明します。

それでは、SEMrushまたはそのような他のツールが蜂蜜に掛からないようにするにはどうすればよいですか？

richhallstoke · Answer

Apache Webサーバーを使用している場合、。htaccess設定を使用して、ユーザーエージェントによってホワイトリストに登録し、正規のボットが「ターピット」に到達するのを防ぐことができます。

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} SEMrush [NC] RewriteRule .* - [F,L]