web-dev-qa-db-ja.com

ブログのスパムが常にひどく書かれているのはなぜですか?

私のWordpressフィルターからの新鮮なスパムメッセージ:

この記事でまだ十分に理解できる場合を除いて、何かを完全に理解していないのであれば、質問をすることは実際には楽しいことです。

そして

他の有益なブログをありがとう。そのような理想的な方法で書かれた種類の情報を他にどこで入手できますか?現在取り組んでいるプロジェクトがあり、そのような情報を探していました。

基本的にすべてのブログスパムが英語を話さない国から来ているというだけなのか、それともその言語について何らかの戦術的な決定がなされているのか?私が最初にそれを見たとき、私はおそらく彼らが本物であるが明確でないと思ったので私は尋ねます。

103
Lucas

スパマーは、既存のコメントを取り、類義語や関連する品詞で単語を置き換えるシソーラスプログラムを実行して、新しいコメントを自動的に生成しています。結果は意味のある文ですが、ネイティブスピーカーがこれまでに作成したことのないようなWordの選択があります。

他にどこで入手できますか...

ネイティブスピーカーが書くものではないことは明らかですが、

他にどこで彼女は得ることができます...

であり、代名詞と類義語をスパムテキストに単純に置き換えることで変換できます。

このようにして、スパム対策部隊が既知のスパムコメントの巨大なデータベースを持っている場合でも、スパマーはおそらく英語である新しいコメントを無限に生成できます。

私はこれが事実であると長い間思っていましたが、最近、証拠を得ました。現在、時々、置換スクリプト全体を含むコメントスパムを受け取ります。それは次のようなものになります:

[素晴らしい/優れている/驚くべき] [コンテンツ/情報/データ] [信じられない/理解/理解できない] ...

スパマーは最初は英語以外の話者である可能性が高いため、出力ではなくスクリプトを送信していることに気付きませんでした。

スパムの十分に大きいコーパスを調べると、彼らが使用しているアルゴリズムをかなり簡単に理解できます。コーパスから使用されるアルゴリズムを推定するプログラムを作成することは、リバースエンジニアリングにおける興味深い課題です。

私が最初にそれを見たとき、たぶん彼らは本物であるが明瞭でないと思ったので、私は尋ねます。

彼らは一度あなたをだましました。二度と起こらないでしょう!

コメンターTildalWaveが指摘する:

oPが投稿したサンプルスパムメッセージのいずれも、実際に製品を推奨したり、その他の理由で宣伝したりすることはありません。

例を挙げましょう。これは、数分前に私のブログに届いたコメントです。

user name:  cuisinart compact toaster review
user url:   toasterovenpicks.com
user email: [email protected]
user IP:    37.59.34.218 
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.

製品は、コメントのコンテンツではなく、ユーザーのメタデータで宣伝されます。コンテンツはスパムフィルターを通過するための単なる試みです。 (この場合、テキストは既存のテキストの突然変異ではなく、結婚式の計画に関するドキュメントのコーパスに対するマルコフプロセスによって生成されたと思います。)

明らかにこれにもスパム対策の力が働いているため、これが私のスパムフィルターに含まれていたのはこのためです。私のスパムフィルター(akismet)は、平均して、送信される705ごとに1つのスパムを通過させます。繰り返しになりますが、それがスパマーの目的です。彼らは自分の作品の99.9%が誰にも見られないことを知っています。彼らはスパムフィルターの偽陰性のスペースをランダムに探そうとしています。実際、スペースはかなり小さくなっています。

139
Eric Lippert

言語はsigと少し関係があるかもしれません TidalWaveが話していたように

少し無害spamdexing。

私は私のブログで最初の例のいくつかを受け取っています。それは無害に見えますが、実際には spamdexing ( " black hat seo "の少し)で、ユーザーアカウント(および拡張子によるWebサイトリンク)を関連付けようとしています。ブログのキーワード(Xanderが言っていたように、それはマーケティングです)。リンクをクリックすると、ブログからの肯定的なヒットとしてカウントされます。ブログが重要な検索に対して十分なヒット数を持っている場合、それらのリンクはキーワードの相対性に関して検索エンジンから+1のバンプを取得します。ほとんどの検索エンジンはこれに追いついており、式の関連性マッチングでそれを回避しようとしています。

欠点は、このスパムのためにユーザーがトピックから外れた何かを求めてサイトにアクセスし、検索エンジンから離れた(バウンス)場合、検索エンジンは全体的なランキング(実質の欠如のため)およびオフのページのランキングにペナルティを課します-トピックのコンテンツ。 spamdexingでITセキュリティに関連することは多くありませんが(感染サイトを独自のURLとして使用しない限り)、十分なスパマーがこれを実行してサイトをノックダウンすると、サイトの[ソーシャル]パフォーマンスに全体的に悪影響を及ぼしますランキング。

2番目の例に関しては、2つのポストスパム操作のフックが含まれています(一般的にフォーラムで見つかります)。最初の投稿者はアカウントを作成し、正当な懸念のように見える質問を投稿します。

...そのような理想的な手段で書かれた種類の情報を他にどこで入手できますか? ...

しばらくして(20分以内、最長で数日以内)別のポスター(通常は同じIP範囲でない場合は同じ国から)が新しいアカウントを作成し、その中にリンクを含む回答を投稿します元の投稿者の質問との関連性。ほとんどの掲示板のモデレーターは本当の議論のように見えるものを削除しないので、彼らのスパムは再​​び誰かをだます...それはまだspamdexingです。より優れたマーケティングスタイルの例は次のようになります。

[ http://www.example.com/] で[keywords here]の優れたリソースを見つけました。 [その他のキーワード]に関連する情報がたくさんあるので、ぜひご覧ください。それはあなたを助けるはずです。

彼らが行う他のトリックのいくつかは、1ピクセルx 1ピクセルの透明GIFであり、<a> 鬼ごっこ。これにより、ポスターが意味不明なコンテンツを入力した場所に他のWebサイトへのリンクが作成されます。あなたがそれを見ることができないからといって、それがそこにないという意味ではありません。

それほど無害なスパムの脅威はサーバーのセキュリティに影響しません

スパムの最悪の例には、実際には感染したサイトへのリンクが含まれるか、または javascript keylogger がインストールされます。 (悪意のあるスクリプトを挿入するために署名行で SVGハック が使用されているのを見てきました。)キーロガーは、ブログのユーザー名とパスワードをキャプチャできるため、注意が必要です。スパムを削除するために同じページにログインしようとしたとき(またはアカウントを作成しているすべてのユーザー)に、/ site adminまたは昇格した特権を持つ別のユーザー。最良のシナリオは、ユーザーが他のユーザーを見るのに十分なアクセス権を持っている場合、攻撃者はユーザーから電子メールアドレスのリストをダウンロードし、スパムの電子メールメッセージを市場をターゲットとした(マーケティング)リストに送信します。

罪のない新しいユーザーが資格情報を盗まれる可能性があります ほとんどの人はどこでも同じパスワードを使用するため と同じ電子メールアドレスなので、他の場所のアカウントが侵害される可能性があります。 (Facebook、LinkedInなど)

最悪の場合のシナリオ。CMSシステムのほとんどのWeb開発者は、「スキル」のある人がこれらの方法(信頼できる)のいずれかを介してバックエンドに侵入することを期待していないため、XSSのすべての管理フォームをチェックするようなことはしていません。またはMySQLインジェクション(私はこの方法で手を抜いている開発者の何人かを捕まえました)。 XSSからSQLインジェクションまでは、ボックスのセキュリティ、ユーザーアカウントの制限(ルートとしてApacheを実行しないでください)、および読み取り/書き込みアクセスに依存します。それらはCMSにあるので、ユーザーは必要なボックスに何でも書き込むことができると想定できます。データベースを削除し、バックドアでサイトを感染させます...今ではITセキュリティの問題です。

28
AbsoluteƵERØ

私が以前働いていた会社は、「スピニング」を行うために使用していました。これは、上記の回答の1つとして、プログラムでシソーラス検索を実行し、テキストを置換することです。ただし、これは複数の複雑なレイヤーで行います。

  1. 私たちは実際に、本物のアメリカ人の作家を雇ってオリジナルのコピーを書きました。
  2. これらの元のライターは、作成した特別な構文を使用して独自のドキュメントをマークアップし、単語、単語のグループ、フレーズ、および文全体をマークします。これは、意味を変えることなく交換できるフレーズ全体の同義語を意味しました。彼らは、オートコンプリートの提案を提供する、私たちが作成したテキスト編集ソフトウェアでこれを行います。
  3. ライターがドキュメントをマークアップするたびに、すべての同義語とフレーズを辞書に格納し、それらを使用してライターに次の割り当ての提案を追加します。
  4. マシンでGOを押して、数百/数千のバリエーションをスピンアウトします。
  5. フィリピンのSEOチームにバリエーションのブロックを割り出します。フィリピンのSEOチームの唯一の仕事は、高PRのブログ、フォーラム、その他のWebサイトを見つけて、私たちをブロックするのが難しいほどです。

興味深いことに、実際の投稿部分を自動化することはありませんでした。これは、マシンが見つけるのが最も簡単なことだからです。本物の人間がそのゴミを投稿していた。

ああ、誰にとってもインターネットを台無しにする古き良き時代。

19
Dan Gayle

あなたの場合、あなたが報告したテキストがコメント全体であったかどうかはわかりません(その場合、真のコメントとして、またはスパム/詐欺として、その目的は何ですか?)。

そうでない場合–スパムが将来の相互作用の前置きとして機能する必要がある場合–貧しい英語で書くことは意図的に行われる可能性があります、詐欺にすぐに気付かず、時間を費やす価値がある被害者の「小切手」として。

出典:ナイジェリアの詐欺師がナイジェリア出身だと言うのはなぜですか? Cormac Herley、Microsoft Research 。

17
Alberto Santini

多分これはOPの質問に答えないでしょうが、それらのスパムは誰かに何かを買わせることを意図していません。

重要なのは、スパム送信者がPageRankを改善したい特定のページまたはサイトへのリンクを含むコメントの最大数を作成することです。それらのサイトは、潜在的なバイヤーを誘惑する(または潜在的な被害者のコンピューターをハッキングする、あるいはその両方)本当の仕事が行われる場所です。

これが、ほとんどすべてのスパムに少なくとも1つのリンクがある理由です。そうでない場合は、通常、特別に細工されたコメント(「すばらしい記事」、「これを共有していただきありがとうございます」など)です。ここでの目的は、コメントを承認し、ボットに直接のアクセスを許可することです。モデレーションキュー。一部のCMSおよびフォーラムでは、ユーザーが承認されたメッセージの最小数に到達すると、メッセージに信頼済みのタグが付けられ、毎回承認を受ける必要がないためです。

したがって、スパムは人間を対象としたものではなく、マシン(検索エンジン)を対象としています。スパマーは、検索エンジンに影響を与えるためにできる限り多くを作成する必要があります。したがって、人間がコンテンツを読むことはないため、コンテンツに時間を浪費することはなく、多くのメッセージをより速く簡単にするメカニズムに集中します。

一言で言えば、あなたはターゲットではなく、単なる付随的なダメージです。

10
ahmed

それはおそらく2つの組み合わせです。文法的に正しく理解できない言語を使用している場合、意味のある方法で空白を埋めようとするため、誰かが投稿に対する実際のフィードバックと誤解する可能性が高くなります。結局のところ、この種のスパムのほとんどは、リンクをWebに拡散させて検索ランキングに影響を与えようとしています。

リンクを維持するには、コメントを本物に見えるようにして、本物のコメントから簡単に引き出せないようにする必要があります。彼らは、アクティブなままであることを期待して「もっともらしく」有効であると思われる一般的なサウンド応答を行います。

他の状況では、これは、コメントへのキーワードの挿入を試みて、それらのキーワードとのリンクの関連付けを増やすことを試みた結果です。

9
AJ Henderson

上記に掲載された良い答えに加えて、あなたの質問には強いサンプリングバイアスがあります。

巧妙に作成されていないスパムブログ投稿のみをブログスパムとして認識します。あなたは本当に巧妙に細工されたブログスパムをブログスパムとして決して認識することはありません。したがって、すべてのブログスパムは巧妙に細工されていないようです。

いい?

6
AllInOne

多くの場合、ブログのスパマーはコンテンツスピナーを使用します。それらは単語を同義語で置き換えますが、理論的には機能するはずですが、実際には、コメントは4歳の人が書いたように見えます。または第一言語として英語を持っていない人。

ほとんどのコンテンツスピナーは共通の構文を共有しています(Eric Lippertの回答の例):

I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...

これは、コンテンツスピナーが各ブラケットからランダムな単語を1つ選択して文を構築することを意味します。この方法では、完全に重複することなく、さまざまな類似のコメントを取得できるため、スパム対策プラグインがmd5などのチェックサムを使用してコメントを以前のスパムと比較する場合、類似のコンテンツを特定するのが少し難しくなります。

4
iHaveacomputer

https://Gist.github.com/shanselman/5422230 は、最近誤ってスコットハンセルマンのサイトに投稿されました。 : http://www.hanselman.com/blog/ExposedABlogCommentSpammersSourceTemplate.aspx

他の人が述べたように、実行する必要があるのは、括弧で囲まれたリストからランダムにWordを引き出すスクリプトを書くことだけです。

4
servarevitas3

簡単に言うとSEO(Search Engine Optimization)のITにはメジャーで2種類のテクニックがある1)ブラックハットと2)ホワイトハット

白い帽子は本物の方法または本物の仕事をします。

しかし、ブラックハットがあなたの問題の始まりである場合、彼らが行うことは、ユーザー名、パスワード、または開いているブログのリストを作成したことです...彼らは要件(キーワード)に基づいてコンテンツを投稿し続けるので、彼らのサイトの内部クリック。

最初の答えが言うように、彼らは言語を部分的に理解し、与えられたキーワードに基づいて段落を作成するスマートなソフトウェアを使用しています。

したがって、それはある程度の意味がありますが、まったく意味がありません... :)

これがあなたの質問の文脈で意味をなすことを願っています。

1
MarmiK