私は機械学習に不慣れで、最初のプロジェクトでは、単純ベイズスパムフィルターを作成したいと思います。ラベル付きのスパム/非スパムメールの公開されているトレーニングセットがあるかどうか疑問に思っていました。できればプレーンテキストで、リレーショナルデータベースのダンプではありません(それらがきれいに印刷されていない限り)。
私は、そのような公に利用可能なデータベースが他の種類のテキスト分類、特にニュース記事のテキストのために存在することを知っています。私はちょうど電子メールのために同じ種類のものを見つけることができませんでした。