machine-learning - 公開されているスパムフィルタートレーニングセット

Question

私は機械学習に不慣れで、最初のプロジェクトでは、単純ベイズスパムフィルターを作成したいと思います。ラベル付きのスパム/非スパムメールの公開されているトレーニングセットがあるかどうか疑問に思っていました。できればプレーンテキストで、リレーショナルデータベースのダンプではありません（それらがきれいに印刷されていない限り）。

私は、そのような公に利用可能なデータベースが他の種類のテキスト分類、特にニュース記事のテキストのために存在することを知っています。私はちょうど電子メールのために同じ種類のものを見つけることができませんでした。

score 34 · Accepted Answer

これが私が探していたものです：http：//untroubled.org/spam/

このアーカイブには、1998年から2011年までの約ギガバイトの圧縮されたスパムメッセージが蓄積されています。今度は、スパム以外の電子メールを取得する必要があります。そこで、getmailプログラムとmattcutts.comのチュートリアルを使用して、自分のGmailにクエリを実行します。

score 10 · Accepted Answer

確かに、Spambaseがあります。これは、私が知る限り、機械学習の文献で最も広く引用されているスパムデータセットです。

私はこのデータセットを何度も使用しました。このデータセットのフォーマットとドキュメント化にどれほどの努力が払われているかに感銘を受けるたびに。

Spambaseセットのいくつかの特徴：

4601データポイント-すべて完了
それぞれ58の機能（属性）で構成されています
各データポイントには、「スパム」または「スパムなし」のラベルが付いています。
約 40％はスパムとラベル付けされています
機能のうち、すべてが連続的です（対離散的）
代表的な機能：大文字の平均連続シーケンス

SpambaseはUCI機械学習リポジトリにアーカイブされています。さらに、優れたML /統計計算論文、 Hastieetalによる統計学習の要素についてもWebサイトで入手できます。

score 8 · Accepted Answer

SpamAssassinには、スパムメッセージと非スパムメッセージの両方の公開コーパスがありますが、数年は更新されていません。readme.htmlファイルを読んで、そこに何があるかを確認してください。

score 6 · Accepted Answer

TRECスパム/ハムコーパス（訴訟から公開されたエンロンからの電子メールのコレクションだと思います）を確認することを検討してください。TRECは通常、多数の競合するテキスト処理タスクを実行するため、比較のための参照を提供する場合があります。

欠点は、多くの言語で利用可能なパーサーがありますが、生のmbox形式で保存されることです（Apache Tikaが良い例です）。

WebページはTRECではありませんが、これはデータへのリンクを含むタスクの概要のようです：http: //plg.uwaterloo.ca/~gvcormac/spam/

score 4 · Accepted Answer

より現代的な1つのスパムトレーニングセットは、kaggleで見つけることができます。さらに、結果をアップロードすることにより、Webサイトで分類器の精度をテストできます。

score 2 · Accepted Answer

答えもあります。ここでは、初期トレーニング用に毎日更新されるベイジアンデータベースと、キャプチャされたスパムを含む毎日作成されるアーカイブを見つけることができます。あなたはそれを使用する方法の説明をサイトで見つけるでしょう。

machine-learning - 公開されているスパムフィルタートレーニングセット

6 に答える 6

Related

Reference