web-dev-qa-db-ja.com

Web使用プロファイルに基づいてスパム対策アルゴリズムを設計するにはどうすればよいですか?

他のスパム対策アルゴリズム、特に Reddit を調べましたが、それらは不十分で素朴なようです。たとえば、タイトルに表示される特定の単語(「スパム」など)のみを禁止します。投稿の。

この問題にどのように取り組むことができますか?この場合、および一般的に活発なオンラインコミュニティWebサイトに役立つツールはありますか?

6
pragmaticCamel

電子メールシステムはベイジアンフィルターを使用してスパムをフィルター処理し、YahooアカウントとGmailアカウントの両方で非常にうまく機能します。

4
Robert Harvey

最終的に、100%のソリューションはありません。

「最良の」アプローチは、次のような複数の方法を組み込んだアプローチです。

  • 応答時間:投稿間隔を確認してください。ほとんどのボットはWebページにアクセスするとすぐに投稿するため、これらは無視してください。
  • ハニーポット:偽の入力フィールドを実際の投稿フィールドの上に配置し、非表示にします。一部のボットは、最初に見つかった入力フィールドのセットに投稿するだけです。これらは無視してください。
  • サービス:Akismet などのオンラインスパム対策サービスを使用します。
  • IPログ:IPと既知のエージェントブラウザをログに記録します。

これらの対策を組み合わせると、スパムを大幅に減らすことができますが、100%効果があるわけではありません。

スパムとの戦いは決して終わりません。

2
Darknight

スパム対策のアルゴリズムは、「おそらくスパム」と「おそらくスパムではない」を区別するためのインテリジェンスと同じくらい優れています。最高のものは統計に基づいています。スパム投稿の大部分と非スパム投稿のごく一部で使用された単語やフレーズ。投稿にスパムのラベルが付けられるたびに、このアルゴリズムはその投稿から学習し、スパムであるかどうかの統計に組み込む必要があります。

他の何かは、スパムを代表するかもしれないし、代表しないかもしれない言葉を単に刺しているだけです。より明白な単語は明白ですが、そのようなアルゴリズムをだますのは簡単であり、単語と表現のリストを絶えず拡張する必要があります。始めるのに良い場所は電子メールフィルターだと思います。

0
Neil