クローラーをジャンクデータで満たすように設計された自己生成ハニーポットがあります。適切な「条約」とヘッダーで保護されているため、優れたボットの99%は離れています。今日では、SEMrushが何千ものページのゴミデータを見つけたようです。
理論的には、サイトをスニッフィングしようとする競合他社に統計情報を歪ませるため、これは素晴らしいことですが、実際にはSEMrushを使用しています。 SEMrushなどの便利なバッドボットがこのハニーポットにcい込むのを防ぐにはどうすればよいですか? robots.txtとnofollowは効果がないようです。設定方法は次のとおりです。
それでは、SEMrushまたはそのような他のツールが蜂蜜に掛からないようにするにはどうすればよいですか?
Apache Webサーバーを使用している場合、。htaccess設定を使用して、ユーザーエージェントによってホワイトリストに登録し、正規のボットが「ターピット」に到達するのを防ぐことができます。
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} SEMrush [NC]
RewriteRule .* - [F,L]