weka - stringtowordvector を使用した SpamAssassin Dataset を使用した WEKA 前処理

Question

私は現在、単純なベイズ分類法を使用して電子メールをスパムまたはクリーンに分類するプロジェクトに取り組んでいます。これには WEKA と有名な SpamAssassin データセットを使用しています。(データセットはここにあります: http://www.csmining.org/index.php/spam-assassin-datasets.html )。

私は WEKA の経験がほとんどありませんが、データを前処理するときに stringtowordvector フィルターを使用するように言われました。これを行う方法について非常に混乱しています。SpamAssassin のデータと WEKA を扱った人はいますか? 前処理を支援するための役立つリンクはありますか?

score 1 · Accepted Answer

次のチュートリアルText Classification and Clustering with WEKA を使用してください。テキストデータを数値ベクトルに変更する必要があります。StringToWordVector フィルターはこのタスクを実行します。

weka - stringtowordvector を使用した SpamAssassin Dataset を使用した WEKA 前処理

1 に答える 1

Related

Reference