41

私は機械学習に不慣れで、最初のプロジェクトでは、単純ベイズスパムフィルターを作成したいと思います。ラベル付きのスパム/非スパムメールの公開されているトレーニングセットがあるかどうか疑問に思っていました。できればプレーンテキストで、リレーショナルデータベースのダンプではありません(それらがきれいに印刷されていない限り)。

私は、そのような公に利用可能なデータベースが他の種類のテキスト分類、特にニュース記事のテキストのために存在することを知っています。私はちょうど電子メールのために同じ種類のものを見つけることができませんでした。

4

6 に答える 6

34

これが私が探していたものです:http://untroubled.org/spam/

このアーカイブには、1998年から2011年までの約ギガバイトの圧縮されたスパムメッセージが蓄積されています。今度は、スパム以外の電子メールを取得する必要があります。そこで、getmailプログラムとmattcutts.comのチュートリアルを使用して、自分のGmailにクエリを実行します。

于 2011-01-22T21:00:39.453 に答える
10

確かに、Spambaseがあります。これは、私が知る限り、機械学習の文献で最も広く引用されているスパムデータセットです。

私はこのデータセットを何度も使用しました。このデータセットのフォーマットとドキュメント化にどれほどの努力が払われているかに感銘を受けるたびに。

Spambaseセットのいくつかの特徴:

  • 4601データポイント-すべて完了

  • それぞれ58の機能(属性)で構成されています

  • 各データポイントには、「スパム」または「スパムなし」のラベルが付いています。

  • 約 40%はスパムとラベル付けされています

  • 機能のうち、すべてが連続的です(対離散的)

  • 代表的な機能:大文字の平均連続シーケンス


SpambaseはUCI機械学習リポジトリにアーカイブされています。さらに、優れたML /統計計算論文、 Hastieetalによる統計学習の要素についてもWebサイトで入手できます。

于 2011-01-20T08:45:48.017 に答える
8

SpamAssassinには、スパムメッセージと非スパムメッセージの両方の公開コーパスがありますが、数年は更新されていません。readme.htmlファイルを読んで、そこに何があるかを確認してください。

于 2013-12-07T22:22:55.247 に答える
6

TRECスパム/ハムコーパス(訴訟から公開されたエンロンからの電子メールのコレクションだと思います)を確認することを検討してください。TRECは通常、多数の競合するテキスト処理タスクを実行するため、比較のための参照を提供する場合があります。

欠点は、多くの言語で利用可能なパーサーがありますが、生のmbox形式で保存されることです(Apache Tikaが良い例です)。

WebページはTRECではありませんが、これはデータへのリンクを含むタスクの概要のようです:http: //plg.uwaterloo.ca/~gvcormac/spam/

于 2011-01-28T23:39:35.823 に答える
4

より現代的な1つのスパムトレーニングセットは、kaggleで見つけることができます。さらに、結果をアップロードすることにより、Webサイトで分類器の精度をテストできます。

于 2014-12-13T12:15:42.393 に答える
2

答えもあります。ここでは、初期トレーニング用に毎日更新されるベイジアンデータベースと、キャプチャされたスパムを含む毎日作成されるアーカイブを見つけることができます。あなたはそれを使用する方法の説明をサイトで見つけるでしょう。

于 2014-04-17T11:10:57.350 に答える