web-dev-qa-db-ja.com

ユーザーエージェントMozilla / 5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10)からの不正なトラフィックGecko / 2009042316 Firefox / 3.0.10(.NET CLR 3.5.30729)

これは急速に変化するイベントであり、まだ答えはありません。

発見事項や仮定を回答として投稿しないでください。実際に回答がある場合のために回答フィールドを予約してください。

追加する何かnewがある場合は、質問に直接編集してください。


年の初めから、ユーザーエージェントで多くのトラフィックを得ています。

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

私のアクセスログには、そのユーザーエージェントからの40%-60%が表示されます。ユーザーエージェントがFirefox 3.0.10ブラウザーを記述しているため、これは奇妙です(2012年に誰かがそのブラウザーを使用していますか?通常のWebサイトの訪問者の40%から60%は間違いなくです)。

また、ログには、このユーザーエージェントがHTMLドキュメントのみをリクエストし、画像、css、jsファイルなどの参照アセットはリクエストされなかったことが示されています。

それらのリクエストのIPを確認しました(そのUAを使用)。それは世界中から来ています。これらのIPにはモバイルユーザーエージェントが含まれている場合があることを認識しました。

したがって、私の疑いは、多くの「スパイダーリクエスト」を実行しているモバイルアプリです。そのユーザーエージェントからのトラフィックの根本的な原因を知っておくとよいでしょう。

誰かが根本的な原因を特定できますか?

過去2週間で、そのUAからのトラフィックが減少し、他のトラフィックが増加することを認識しました。そのボット/クローラーはより一般的なUAを使用しているため、ブロックするのがより困難になっているようです。他の誰かがこの質問への回答でそれを言っているのを見ましたが、serverfaultがこの質問を再配置することにしたときに削除されました。

参照としての古い回答


Dee から更新

私は自分のかなりトラフィックの多いウェブサイトを運営しており、先月かそこらのApacheログにまったく同じものが表示されています(まだ確認する機会がまだありませんでした)。すべてのリクエストの40%は、私が見ているパーセンテージです。

また、リクエストでは常にリクエスト元のブラウザがgzip圧縮をサポートしていないように見えることに気づきました。その結果、すべてのWebページリクエストが非圧縮で送信され、帯域幅の使用量が急激に増加しました。

しかし、これまでのところ、実際に何が起こっているのかを判断することができませんでした。これまで疑わしいのは、偽のユーザーエージェント文字列を送信しているモバイルデバイスのプロキシサーバーなどの可能性があることです。

追加用に編集:少し調査を行ったところ、ウイルス対策ソフトウェアである可能性があります: http://www.webmasterworld.com/search_engine_spiders/4428772.htm


jamur21 から更新

はい、複数のサイトで同様のトラフィックが確認されています。

根本的な原因を探していますが、調査結果には次のようなものがあります。

  • それがクモなら、かなり貧弱な仕事をしています。別のURLに移動するまで、しばらくの間(おそらく数時間)ドメインごとに1つまたは2つのURLだけをハンマーで叩くようです。ただし、コンテンツは常に比較的「最新」であり、ディーが彼/彼女の回答に投稿したリンクに掲載されているように、Googleニュースが要因であることを信用できます(すべてのサイトはニュースサイトです)。

  • IPは地理的に分散していますが、ほとんどの場合、Originサイトの近くにあるように見えます(ほとんどのサイトはローカルニュースアウトレットであるため、国内トラフィックは多くありません)。米国外からのリクエストはほとんどありません。繰り返しになりますが、これは、Googleニュースから丸呑みにされるURLに信用を与えます(私は、ZipコードによってGoogleニュースをローカライズした人に私たちのコンテンツが表示されると思います)。

  • ほとんどの場合、リクエストはバックグラウンドノイズ(特に騒々しいものですが)として書き留めることができますが、1日に数回スパイクし、このUAだけで約15〜30分間で〜100 mbpsのトラフィックを占めます。

  • 残念ながら、GoogleニュースはこれらのURLが発見される可能性があるように思われますが、これまでに目にしたことはすべて状況によるものであり、これらのURLがどのように、またはなぜ攻撃されているのかを正確に把握することはできません。


Bannow Bay からの更新

私たちは大きなニュースサイトを持っています-私たちの記事は週に数回Googleニュースに取り上げられます。 11月下旬以降、このソースからのトラフィックがあり、週ごとに増加しており、2月にはおそらく3000万インプです。

GoogleニュースUSのトップページに表示されることがこのトラフィックのきっかけです。約75%がUS IPからのものであると主張しています。しかし、それが何であれ、それ自体を不明瞭にするために多大な努力をしています。そして、それは友好的ではありません。

喫煙銃も見つかりませんでしたが、主要なセキュリティベンダーは、私たちのためにさらに調査することに親切に同意してくれました。


Artem Russakovskii からの更新

ニュースサイト(AndroidPolice.com)で初めて同じことが起こっただけです。 QPSが平均値の5000%(LinodeのNodeBalancerの制限である5000qps)を超えて急上昇したこれらのランダムリクエストの約10分。要求がI/Oとネットワークを使い果たしているため、CPUはアイドリングを開始しました。これは実際のDDOSでした。

私は本当にこれの底に到達したいのですが、現時点では完全に不可解なようです。


Mark から更新

+1を追加するだけです。私たちのサイトでも同じ動作が見られます。ここに追加する大量の新しい情報ではありませんが、トラフィックの一般的な形を以下に示します。

  1. トラフィックは高度に分散されています。トラフィックは、6万を超える一意のIPから送信されています。
  2. トラフィックの大多数が単一のURL、通常はGoogleニュースにリストされている最近のURLにヒットしています(ただし、Googleニュースは常にベクターであるとは限りません)
  3. このトラフィックのすべては、このスレッドに記載されているように、同じFirefox/3.0.10ユーザーエージェントから送信されていますが、あちこちでいくつかの奇妙なモバイルエージェントを見てきました。
  4. このエージェントからのすべてのトラフィックには、参照URLデータは含まれていません。
  5. バーストは週1〜2回30〜60分間発生し、その後消えます。

ドンアイルランド からの更新

最後の投稿は4月13日でしたが、トラフィックは確実に終了していません。これの最も奇妙な部分は、彼の塩の価値があるマルウェアの作者が確実に(確かに)最新のブラウザからのユーザーエージェント文字列を使用し、ブロックユーザーエージェントの防御を無価値にするという事実かもしれません。この事実により、まるで「無害な」ニュースアグリゲータまたは他のアプリケーションがソースであるかのように見えます。しかし、これまでのところ、私は実際の結論に到達することもできず、情報を持っている人がここに投稿することを期待しています。

同じパターンが見られますが、Googleニュースで取り上げられたストーリーに続いて、そのストーリーをリクエストするトラフィックの非常に高いスパイクが発生します(ただし、画像などの付属ファイルはありません)。アウトバウンド応答トラフィックは、ネットワークを飽和させる可能性のあるスパイクを引き起こします(または、503エラーのみで応答を開始するまで発生しました)。これらの攻撃(他に何と呼ぶことができますか)は平均で約30分続きますが、非常に人気のあるストーリーは1時間以上トラフィックが高くなる可能性があります(Firefox 3.0.10のトラフィックについて話していますが、通常のトラフィックも高いままです)しばらくの間)。

1時間の間に(負荷分散グループ内の単一サーバーの場合)200,000のリクエストがあり、そのうち97,000がfirefox 3.0.10リクエストであり、すべてのリクエストのほぼ50%でした。また、通常、ページがメインファイルとアクセサリファイルに対して10以上のリクエストを生成すると考えると、97,000ははるかに大きくなります。 97,000のうち、51,000の一意のIPアドレスがあったことに注意します。そして、私は1時間について話しています(実際には45分近くでした)。これを引き起こしているものは何でもかなり広まっています。


ser119708 から更新

フランスの巨大なハイテクニュースウェブサイトでも同じ問題が発生しています。

ニュースが公開され、グーグルニュースで閲覧可能になると、IPとユーザーエージェント「Mozilla/5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10 )Gecko/2009042316 Firefox/3.0.10(.NET CLR 3.5.30729)」.

すべてのIPアドレスはフランスまたはフランスの国にあり、リファラーがいないようです。それはボットのようですが、単一のリモートアドレスが数分間に同じニュースで50回または100回戻ってくる必要があるのはなぜですか?感染したコンピュータである可能性はありますか?ニュースがグーグルニュースに表示されているときに現象が表示されるのはなぜですか? Googleはこの奇妙なトラフィックに責任がありますか?

このトピックの誰かが説明を見つけた場合、それは多くの中規模または大規模のWebサイトがトラフィックを制御するのに役立つと思います!

編集: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 本当に感染したコンピューターである場合、関連するアドレスの数を考えると非常に心配です。 Apacheにこのスクリプトを実装して、すべてのトラフィックをブロックします。

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Ernesto から更新

中程度のスペインの総合ニュースサイト。数日以来、無関係なニュースでトラフィックが高いことに気づきました。

いずれにせよ、ページが読み込まれるとデータベースの更新によって「ページビュー」数が増えるため、HTML全体が読み込まれます。

毎日1つまたは2つのURLをターゲットにしているだけです。

数秒で同じURLを介して大量のリクエスト(7000-12000)が発生し、1日を通してさまざまなIPから配信されました。翌日、他のURLがターゲティングされました。

リファラーはありません。

対象となる記事はGoogleニュースに掲載されましたが、関連性があるとは限りません。

Google Analyticsはそれを正当なトラフィックとして認識しません。ヒット数が8000以上の記事があり、GAは25程度しか報告しません(javascriptは解釈されないと想定しています)。


Old Pro から更新

いくつかのデータポイントを追加します。

ボットとブラウザ は、このUAをボット(まだ)とは見なしません。

私がログを保持している最もトラフィックの多いサイトでは、2012年5月までの使用量で、このUAがトラフィックの1%未満であることが示されています。 UAリクエストのかなりの部分が正当なように見えます(たとえば、予想されるすべてのリソースを読み込んでいます)。これは基本的に2012年2月の場合と同じです。

このサイトのフロントページはめったに更新されず、すべての動的コンテンツはrobots.txtによってブロックされます。


これはおそらくGenieoによるものです。新しいユーザーエージェントを使用するようにアプリケーションを更新しました:Mozilla/5.0 +(compatible; + Genieo/1.0 + http://www.genieo.com/webfilter.html )。元のユーザーエージェントと同じパターンでヒットしますが、現在は自分自身を識別しているようです。ユーザーエージェントのURLを見ると、特定のWebサイトへのトラフィックが多すぎる、または多すぎる可能性があることを認めています。 - dflaw


Mike Fagan からの更新

私たちは、何週間もの間、DDOS攻撃であると私たちが想定していたものと戦ってきました。私たちはこれらの攻撃のユーザーエージェントとしてGenieoを見始めました。以前は、「Mozilla/5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10)Gecko/2009042316 Firefox/3.0.10(.NET CLR 3.5.30729)」と、「 Mozilla/5.0(Windows NT 6.1; rv:11.0)Gecko/20100101 Firefox/11.0 "。 1万件以上のIP、1日あたり100万件以上のリクエストで、同じIPが100回以上ページをリクエストしていて、追加のアセットや広告を取得していなかった場合、3つか4つのページ。私の発見によると、これらのIPはどれも、実際には私たちのサイトの他のページに移動していません。

私はGenieoに連絡しました、そしてこれは彼らの返答です:

"ご連絡いただきありがとうございます。

Genieoの古いバージョンは、あなたが説明するトラフィック負荷を引き起こしたかもしれません。ご不便をおかけして申し訳ございません。これに対処するために昨日リリースおよび更新しました。アプリケーションからのデータロードは、今後24時間でフェードアウトするはずです。新しいユーザーに紹介することで、お客様のサイトに良いサービスを提供していると信じていました。インストールベースが拡大しているため、一部の場所で過負荷が発生する可能性があることを適切に評価していませんでした。

Genieoは個人の新聞またはスマートRSSリーダーです。これは、スマートなセマンティックパーソナライズフィルタリングを備えたクライアント側RSSリーダーです。 Genieoアプリケーションは、セマンティック分析を実行することにより、ユーザーのお気に入りのサイトのRSSデータを追跡し、記事を「読み取り」、関心のあるユーザー領域に基づいてフィルターします。記事がユーザーの興味と一致する場合、アプリケーションは記事のタイトルとスニペットをユーザーのホームページに表示します。タイトルをクリックすると、記事のサイト-あなたのサイトに移動します。 Genieoエージェントは自律的です(プライバシー上の理由から)。エンドユーザーのマシンで実行されるため、エージェントが多くの異なるIPからサイトにアクセスするのがわかります。

Genieoデータのほとんどはユーザーの通常のRSSフィードから取得されますが、Genieoは以前にユーザーによって登録されていない新しいニュースサイトからのコンテンツも追加します(セレンディピティと多様性のため)。 Genieoアルゴリズムは、「ホット」な記事、Twitterのトップヒット、YouTubeで最も視聴された記事、Googleニュースのハイライトを探し、それらがユーザーの興味と一致しているかどうかをチェック

これが一部のサイトで負荷の問題を引き起こしていることは認識していませんでした。これが注目されたら、現在のユーザーをロードスパイクを防止する新しいバージョンに更新します。

宜しくお願いします、

-ドタン

PS:以前は「Mozilla/5.0(Windows NT 6.1; rv:11.0)Gecko/20100101 Firefox/11.0」を使用していましたが(技術的なバグのため)、現在のすべてのGenieoユーザーはGenieoユーザーエージェント(過去数週間)」

31
user114293

ユーザーdflawがそれを見つけたと思います。 Genieoのソフトウェアです。私たちはいくつかのテストを行い、それらに連絡しました。すべての結果は公開されています ここ

1
user114293