web-dev-qa-db-ja.com

一部のユーザーエージェントにスパムURLが含まれているのはなぜですか(また、常にOpera / Prestoユーザーエージェントであるのはなぜですか)。

Botsvsbrowsers.comのWebサイトへの最後の100エントリ(訪問)にアクセスした場合(正確なリンクは、お気軽にご覧ください: http://www.botsvsbrowsers.com/recent/listings/index .html )、キーワード「Opera」と「Presto」を含むほとんどすべてのユーザーエージェントには、ほぼ確実にその中にWebリンク(URL/Webアドレス)があり、それが表示されないことがわかります。 tは通常のWebアドレスですが、そのアドレスへのHTMLアンカータグ/リンクです。なぜそうなのか、インターネット上でそれに関する議論を見つけることすらできず、どこでも、検索用語を何度も変えてみました。

ユーザーエージェントに「Opera」と「Presto」という単語が含まれている場合、このWebリンクが含まれることを意味するわけではありませんが、約80%の変更があることを意味します。ユーザーエージェント内の典型的なアンカータグ/リンクは次のようになります。

Mozilla/4.0 <a href="http://osis-uk.co.uk/disabled-equipment">障害者用機器</a>(Windows NT 5.1; U; ja)Presto/2.10.229バージョン/11.60

Webサイトで確認すると、 http://www.botsvsbrowsers.com/recent/listings/index.html 前後の矢印がエスケープされていない形式になっていることがわかります。

これはbotsvsbrowsersだけでなく、他のいくつかのユーザーエージェントリストサイトにも当てはまります。私は本当に混乱していて、1万人の人でいっぱいの部屋にいるラインを感じて、この幽霊を見るのは唯一の人です:)。

統計分析を行っている場合、このタイプのユーザーエージェントをリストに含めるか、除外する必要があります(つまり、これらはユーザーエージェントを設定して、Webを閲覧するときにサイトにトラフィックを誘導しようとする通常のユーザーです) )、または他に何かが起こっていますか?その形式の点で非常に一貫しているという事実は、それが自動化されたプロセス(ユーザーエージェントの設定または変更)であると信じるようになり、この変更が行われるプロセスを決定または理解できません(方法を知っていますユーザーエージェントを変更するには)、ただし、どのプログラムまたは機能がこれを行っているのかわからない、特に8または9がブラウザーバージョンを指していると思われるOpera(Presto)ユーザーエージェントに限定されているため.

これをよりよく理解するために、いくつかの統計テストを実行し、あらゆる場所からのエントリを解析し、カスタムプログラムを作成しました。ユーザーエージェントに通常のURLが表示されることはまれであり、特に+ http://www.someSite.comなどのテキストがユーザーエージェントに通常追加されることに注意してください。特に、そのクローラーまたはボットがサービスURLを提供する場合、正常であり、埋め込みリンク(A HREF =)などで行われないため、「これら」については話していない。

6

ボットとブラウザを比較すると、ページにアクセスしたすべてのユーザーエージェントが表示されます。一部の巧妙なスパマーは、これがトラフィックをサイトに誘導する賢い方法であることに気づきました。サイトを見るウェブマスター/誰もが、ユーザーエージェントにURLがある理由を疑問に思い、それが新しい仕様か何かであると思い、訪問するからですurlがさらに学習しようとしています。

Operaのユーザーエージェント RLがありません 、ところで。また、ボットとブラウザでは、URLも含まれている他のブラウザのユーザーエージェントが多数リストされています。

これらも サーバーログに表示されます も表示されます。

ただし、多くのボットはユーザーエージェントにURLをリストしていることに注意してください( Googleはこれを行います など)。

7
user6901

完全なHTMLアンカーをユーザーエージェントに含めることで、スパマーは単に、ターゲットWebサイトがエンコードされていない(HTMLがレンダリングされる)完全なユーザーエージェントを、おそらく保護されていない統計ページに表示することを望んでおり、無料のリンケージ。

これは referer spam と同様のプリンシパルです。

エンコードされていないユーザーエージェント文字列をWebページに表示することは、明らかなコーディングの間違い(セキュリティ上の脆弱性)ですが、何百万ものスパムサイトに十分な間違いがある可能性があります。

ログをさりげなくめくる好奇心developer盛な開発者(リンクがHTMLアンカーとして表示される)の恩恵を受けるとは思わない。 「障害者用機器」は誰ですか?!

1
MrWhite