0

私は現在、単純なベイズ分類法を使用して電子メールをスパムまたはクリーンに分類するプロジェクトに取り組んでいます。これには WEKA と有名な SpamAssassin データセットを使用しています。(データセットはここにあります: http://www.csmining.org/index.php/spam-assassin-datasets.html )。

私は WEKA の経験がほとんどありませんが、データを前処理するときに stringtowordvector フィルターを使用するように言われました。これを行う方法について非常に混乱しています。SpamAssassin のデータと WEKA を扱った人はいますか? 前処理を支援するための役立つリンクはありますか?

4

1 に答える 1

1

次のチュートリアルText Classification and Clustering with WEKA を使用してください。テキスト データを数値ベクトルに変更する必要があります。StringToWordVector フィルターはこのタスクを実行します。

于 2013-04-21T21:26:21.613 に答える