Wget、httrackなどを介して自身のコンテンツをスクレイピングすることを不可能にするが、googlebotをクロールする方法は?
これは、他のユーザーエージェントと同様に、他のコンテンツをgooglebotに表示せずに行う必要があります。
そして、これが一般的に可能であれば、アドバイスでIP認識を避けるようにしてください!
現在の設定では、IP認識に基づいて既に機能し、サーバーは定期的にダウンします。セットアップは次のようになります。
現在の主なボトルネックはmod_securityであり、一部はmod_securityからTomcatへの道です。セットアップの変更は、実行可能なソリューションを含む多様な外部です。
第三者によるスクレイピングを完全に排除することはほぼ不可能です。最初の防衛線はrobots.txtファイルです。
User-Agent: Googlebot
Disallow:
User-Agent: *
Disallow: /
これにより、robots.txtに従うGooglebot以外のすべてのクローラーが許可されなくなります。