Grapeshot と呼ばれるクローラーに出くわした人はいますか?彼らは私たちのウェブサイトで同じページを繰り返し叩いています。以前のコンテンツ広告キャンペーンに基づいて、広告関連のキーワードを探していると思います。奇妙なことに、興味のあるページでこのようなキャンペーンを実行したことはありません。AdSenseを実行しているページは数ページしかないのですが、これがGrapeshotを惹きつけたのでしょうか。
Robots.txtに次の宣言を追加しましたが、彼らはそれを尊重していないようです。
User-agent: grapeshot
Disallow: /
この迷惑なクローラーをブロックする方法についてのアイデアはありますか? IISでIPルールを設定するのが最善の方法だと思い始めていますか?
いくつかのボットはrobots.txt宣言に従いません。サーバーでユーザーエージェントをブロックし、403 Forbidden HTTP response
を返す必要があります。
IISでは、サーバーでユーザーエージェントをブロックできます。 moz.com
で次の手順を実行できます。
http://moz.com/ugc/blocking-bots-based-on-useragent
ここでは手順が長すぎるので説明しませんでした。
Grapeshotクローラーは、サイトで 文書化 であるため、robots.txtを尊重する必要があります。
Robots.txtファイルを使用すると、サイトの一部またはすべてからGrapeshot Crawlerをブロックできます[…]
多分それはあなたのサイトを訪れる本当のGrapeshotクローラーではないでしょうか? IPアドレスを確認 :
Grapeshotクローラーは、Grapeshotが所有するIPアドレス範囲からのリクエストによって識別できます。リクエストがスプーフィングされている疑いがある場合は、適切なwhoisツールまたはルックアップサービスを使用して、まず適切なRIPEデータベースに対してリクエストのIPアドレスを確認する必要があります。一般に、表示される有効なアドレスは、89.145.95.0〜89.145.95.255(89.145.95.0/24)のアドレス範囲のみです。執筆時点で、Grapeshotクローラーに使用されているアドレスは89.145.95.2、89.145.95.41、89.145.95.42のみです。
それが実際のクローラーであり、数日与えた場合(クローラーは変更されたrobots.txtに気付く)、 クローラーサポートに連絡 する必要があります。