メールが実際にセキュリティリスク(フィッシング、スパム、ソーシャルエンジニアリングなど)である可能性を予測できるかどうかを確認しようとする小さなプロジェクトに取り組んでいます。
これを行うには、「スパム」、「フィッシング」、または「ソーシャルエンジニア」の言語を理解するために使用できるいくつかの例が必要です。
英語のメールに集中するつもりです。
次の例を含むデータベースはありますか?
-スパムメール(私のスパムボックスは非常に混雑しており、そこにいくつかの有効なメールが含まれている可能性があります。
-フィッシングメール(またはスピアフィッシング)
-ソーシャルエンジニアリング攻撃としてマークされたメール。
ある種の機械学習を使用している場合(使用していない場合でも)、注意散漫コーパスも必要になります(スパム対策業界では、希望するメールを「ハム」と呼んでいます。 「非スパム」)、そしてそれは–はるかに–あなたの最大の挑戦になるでしょう。
スパムを誘致するための出発点の1つは、この古いスタックオーバーフローリクエスト 公開されているスパムフィルタートレーニングセット またはこの古いスタックオーバーフロー ブレインストーム:大量のハニーポットをすばやく作成する方法)です。 spam? 両方ともスタックオーバーフローのトピックから外れていますが、ここではそうではない可能性があります。
もう1つの開始点は SpamAssassin public corpus ですが、現時点では10歳以上です。
スパムやハムを誘致するための他のテクニックもあります。 スパムトラップのシード を検索すると、スパム対策の専門家や メールサービスプロバイダー からの大量のアドバイスが見つかります。
一般的に言って、新しいスパムをフィルターする方法を予測するのに役立つ良いコーパスを収集するのは大変な労力です。フィッシング、前払い詐欺、およびその他の標的型スパムの適切なサンプルを収集することは著しく困難です。バルクでないハムの収集も課題になることはすでに述べましたが、フィッシングを捕まえるように調整しようとしている場合は、ハムのコーパスに、金融に関連する正当な非マーケティングメールがたくさん含まれていることを確認する必要があります。とアカウントのメンテナンス。
あなたの最善の策は、すでに良いデータを持っている業界の誰かとチームを組むことです。
これには、SpamAssassinのようなフリーソフトウェアコミュニティが含まれる可能性があります。正規表現(SpamAssassinルール)の論理的な組み合わせとして作業をインスタンス化できる場合、 SpamAssassin QAシステム を取得して、独自のコーパスに対して組み合わせを実行できます。これには、SpamAssassin自体で使用できるように、Apache License v2として作品のライセンスが必要になります。
Anti-Phishing Working Group (APWG)にはフィッシングのサンプルがたくさんありますが、それらの料金を支払う必要があるかもしれません(あなたが彼らの論文に取り組んでいない限り eCrime Symposium) ?)
Project Honeypot にもスパムの良いコレクションがあります(ただし、ハムはありません)。あなたは彼らと一緒に働くことができるかもしれません。