そのため、15,000 ツイートのセットに対して多項単純ベイズ分類アルゴリズムを実行しています。最初に各ツイートを Weka の StringToWordVector 関数に基づいて単語特徴のベクトルに分割します。次に、結果を新しいarffファイルに保存して、トレーニングセットとしてユーザーに提供します. このプロセスを別の 5k ツイートのセットで繰り返し、トレーニング セットから派生した同じモデルを使用してテスト セットを再評価します。
私たちがやりたいことは、weka がテスト セットで分類した各文をその分類とともに出力することです...アルゴリズムのパフォーマンスと精度の一般的な情報 (精度、再現率、f スコア) を見ることができますが、私たちの分類器に基づいて、weka によって分類された個々の文を見ることができません...とにかくこれを行うことはありますか?
もう 1 つの問題は、最終的に教授がさらに 2 万件のツイートを提供し、この新しい文書を分類することを期待することです。ただし、次のようにこれを行う方法はわかりません。
All of the data we have been working with has been classified manually, both the training and test sets...
however the data we will be getting from the professor will be UNclassified... How can we
reevaluate our model on the unclassified data if Weka requires that the attribute information must
be the same as the set used to form the model and the test set we are evaluating against?
助けてくれてありがとう!