私は現在、単純なベイズ分類法を使用して電子メールをスパムまたはクリーンに分類するプロジェクトに取り組んでいます。これには WEKA と有名な SpamAssassin データセットを使用しています。(データセットはここにあります: http://www.csmining.org/index.php/spam-assassin-datasets.html )。
私は WEKA の経験がほとんどありませんが、データを前処理するときに stringtowordvector フィルターを使用するように言われました。これを行う方法について非常に混乱しています。SpamAssassin のデータと WEKA を扱った人はいますか? 前処理を支援するための役立つリンクはありますか?