サイトがプロキシまたは企業ネットワークの背後にあるボットを検出する方法

Question

大規模なサイト（Wikipediaなど）は、他のIPマスカーの背後にあるボットをどのように扱いますか？たとえば、私の大学では、誰もがWikipediaを検索するため、かなりの負荷がかかります。しかし、私の知る限りでは、ウィキペディアは大学のルーターのIPしか認識できないため、「解放された」ボットを（リクエスト間の遅延が少ない）設定した場合、ウィキペディアは組織全体を禁止することなくボットを禁止できますか？サイトは実際に組織ネットワークの背後にあるIPを禁止できますか？

Zypher · Accepted Answer

いいえ、彼らはパブリックIPを禁止し、そのIPにNATを適用するすべての人も禁止されます。

少なくともスタックでは、カレッジまたはそのようなものを禁止するつもりであると思われる場合は、虐待の連絡先に連絡し、犯罪者を追跡して問題を停止させます。

Carcer · Answer

サイトは、NATの背後にあるIPを直接禁止することはできません。匿名でないHTTPプロキシを介して渡されたIPに作用する可能性があります。このようなプロキシがリクエストを転送すると、通常はそのアドレスがX-Forwarded-Forヘッダーに追加されるため、プライベートネットワークからのアクセスが実際にそのような内部IPが公開される可能性があるプロキシ。しかし、ほとんどのサイト（ウィキペディアを含む）は、とにかくそのヘッダーの情報を信頼しません。なぜなら、無実のIPを巻き込んだり、禁止を回避したりするのは簡単だからです。

ただし、IPアドレスとは無関係にユーザーを一意に識別しようとする他の手法もあります。ユーザーエージェント、画面解像度、プラグインのリストなど、Webブラウザーとそれが実行されているシステムに関する多くの情報をWebブラウザーに問い合わせることができます-参照 https://github.com/ carlo/jquery-browser-fingerprint 実際のこの例。このような指紋を使用してアクセスを制御することもできますが、サイトの設計によっては、指紋プロセスに関与せずにそれとやり取りできる場合があります。また、ボットできない場合でも、ボットが不要になるため、偽造されたランダムなデータを提供できます。この種の保護が実施されていることに気付いている場合は、一貫した指紋。この制御方法は、特に同じストックハードウェア上で同じストッククライアントを実行している多数のクライアントが存在するモバイルデバイス（特に、特定のバージョンのiOSを実行しているiPhoneの特定のモデルを使用しているほとんどの人）の場合、誤検知のリスクを伴います。たとえば、おそらく同じフィンガープリントを取得します）。このようなフィンガープリントは、通常、コントロールを強制するためではなく、ユーザートラッキングにのみ使用されますが、IPブロックが広すぎて、単純なボットに対して効果的であることが懸念される場合、フィンガープリントを使用して禁止を実装する場所を知っています。

Phil Hannent · Answer

一般的に、IPアドレスは正しい禁止を行うための十分な情報ではありません。したがって、高度なネットワークはネットワークスタックの上位で機能します。

通常、サービス拒否（DoS）攻撃（作成が心配）は、初期のTCP=接続設定を制限することで処理されます。これは、待機してもよい正当なユーザーが通過することを意味しますが、サーバーリソースを消費しようとするだけで、無害になるまで速度が低下し、ここからDoSが分散DoS（DDoS）攻撃に発展します。

サーバーに接続したら、必要な数の要求を作成できます。Webサーバー管理では、処理する要求の数を構成できます。

とにかく、Webサーバーはローカルネットワークゲートウェイよりも多くの容量を処理できる可能性があります。これが、おそらくユースケースの制限要因です。ウィキペディアがやる前に、大学のネットワーク管理者があなたのドアをノックするようになると思います。

ボットにレート制限コードを追加するため、良きインターネット市民であることが重要です。

また、Wikipediaがデータダンプを提供しているため、サイトのトロールが本当に必要ないことも指摘しておく必要があります。