私は機械学習が初めてであり、最初のプロジェクトでは、単純なベイズスパムフィルターを作成します。ラベル付きスパム/非スパムメールの一般公開されているトレーニングセットは、できればプレーンテキストであり、リレーショナルデータベースのダンプではないかと思います(きれいに印刷しない限り)。
他の種類のテキスト分類、特にニュース記事のテキスト用に、このような公開データベースが存在することを知っています。メールでも同じようなものを見つけることができませんでした。
ここに私が探していたものがあります: http://untroubled.org/spam/
このアーカイブには、1998年から2011年までに蓄積された約1ギガバイトの圧縮されたスパムメッセージがあります。今は、スパムでない電子メールを取得するだけです。そのため、getmailプログラムと mattcutts.com のチュートリアルを使用して、自分のGmailに対してクエリを実行します。
確かに、 Spambase がありますが、これは私が知る限り、機械学習の文献で最も広く引用されているスパムデータセットです。
このデータセットを何度も使用しました。このデータセットのフォーマットとドキュメント化にどれだけの労力が費やされたかに感銘するたびに。
Spambaseセットのいくつかの特徴:
4601データポイント-すべて完全
それぞれ58の機能(属性)で構成されています
各データポイントには「スパム」または「スパムなし」というラベルが付いています
約40%がスパムと分類されている
特徴のうち、すべてが連続的(離散的)
代表的な機能:大文字の平均連続シーケンス
Spambaseは CI Machine Learning Repository ;にアーカイブされています。さらに、優れたML/Statistical Computation Treatiseの Website でも利用できます。Stastics of Statistics Learning等。
SpamAssassinには、スパムメッセージと非スパムメッセージの両方の public corpus がありますが、数年間更新されていません。 readme.htmlファイルを読んで、内容を確認してください。
TRECスパム/ハムコーパス(裁判所から公開されたエンロンからの電子メールのコレクション)を検討することを検討するかもしれません。 TRECは通常、競合するテキスト処理タスクの束を実行するため、比較のための参照が提供される場合があります。
欠点は、多くの言語で利用可能なパーサーがありますが、未加工のmbox形式で保存されることです(Apache Tikaは良い例です)。
WebページはTRECではありませんが、これはデータへのリンクを含むタスクの概要です。 http://plg.uwaterloo.ca/~gvcormac/spam/
kaggle に、より最新のスパムトレーニングセットがあります。さらに、結果をアップロードすることにより、Webサイトで分類子の精度をテストできます。
答えもあります here 初期トレーニング用に毎日更新されるベイジアンデータベースと、キャプチャされたスパムを含む毎日作成されるアーカイブを見つけることができます。サイトでの使用方法の説明があります。