web-dev-qa-db-ja.com

サードパーティのスクレイピングは除外しますが、Googleのクロールは許可します

Wget、httrackなどを介して自身のコンテンツをスクレイピングすることを不可能にするが、googlebotをクロールする方法は?

これは、他のユーザーエージェントと同様に、他のコンテンツをgooglebotに表示せずに行う必要があります。

そして、これが一般的に可能であれば、アドバイスでIP認識を避けるようにしてください!

現在の設定では、IP認識に基づいて既に機能し、サーバーは定期的にダウンします。セットアップは次のようになります。

  • 最初のレイヤー:キャッシュとしてのnginx、
  • 2番目のレイヤー:mod_securityを使用したApache。 mod_securityはIP認識を行い、トラフィックを管理します。
  • 第3層:TomcatとCMS)。

現在の主なボトルネックはmod_securityであり、一部はmod_securityからTomcatへの道です。セットアップの変更は、実行可能なソリューションを含む多様な外部です。

3
Evgeniy

第三者によるスクレイピングを完全に排除することはほぼ不可能です。最初の防衛線はrobots.txtファイルです。

User-Agent: Googlebot
Disallow: 

User-Agent: *
Disallow: /

これにより、robots.txtに従うGooglebot以外のすべてのクローラーが許可されなくなります。

2