サイトマップのホワイトリスト を使用するstackoverflowのアプローチに従うことを試みています。ホワイトリストで使用する検索エンジンクローラー(およびその他のクローラー)の広範なリストを見つけようとしましたが、これまでに発見したのは古い情報です(何年も更新されていません)。すべての検索エンジンクローラーのユーザーエージェントとそのドメイン名(リバースDNS用)を含む定期的に更新されるリストを見つけることができるネット上の場所はありますか?
ありがとう
Googlebotを確認する方法は次のとおりです: Verifying Googlebot
これはBINGを間接的にカバーしているようです 。 Bingがサイトにあるときに絞り込むのに役立つスクリプト (PHPの場合)。
参照した質問は、回答者がユーザーエージェント自体をホワイトリストに登録していること、not特定のスパイダーに関連付けられているドメインまたはIPアドレスであることを示しています。
User-agent文字列を使用する場合は、 ser-agents.org に完全なリストがあるように見えます。
すべての検索エンジンをホワイトリストに登録するよりも、3つ(Google、Yahoo、Bing)に加えて、おそらくAsk(サイトマップをサポートすることでも知られている)を選択する方が良いかもしれません。
それらのすべてをホワイトリストに登録することは、長く困難で、最終的には無駄な作業のようです。ドアを叩いている人を記録し、それに基づいてリストを展開できます。