machine-learning - Weka テキスト分類から結果のドキュメントを出力する方法

Question

そのため、15,000 ツイートのセットに対して多項単純ベイズ分類アルゴリズムを実行しています。最初に各ツイートを Weka の StringToWordVector 関数に基づいて単語特徴のベクトルに分割します。次に、結果を新しいarffファイルに保存して、トレーニングセットとしてユーザーに提供します. このプロセスを別の 5k ツイートのセットで繰り返し、トレーニングセットから派生した同じモデルを使用してテストセットを再評価します。

私たちがやりたいことは、weka がテストセットで分類した各文をその分類とともに出力することです...アルゴリズムのパフォーマンスと精度の一般的な情報 (精度、再現率、f スコア) を見ることができますが、私たちの分類器に基づいて、weka によって分類された個々の文を見ることができません...とにかくこれを行うことはありますか?

もう 1 つの問題は、最終的に教授がさらに 2 万件のツイートを提供し、この新しい文書を分類することを期待することです。ただし、次のようにこれを行う方法はわかりません。

All of the data we have been working with has been classified manually, both the training and test sets...
however the data we will be getting from the professor will be UNclassified... How can we 
reevaluate our model on the unclassified data if Weka requires that the attribute information must
be the same as the set used to form the model and the test set we are evaluating against?

助けてくれてありがとう！

score 1 · Accepted Answer

これらのタスクを達成する最も簡単な方法は、FilteredClassifier. Filterこの種の分類子は aと aを統合するため、フィルターを好みの分類子 ( 、、何でも) にClassifier接続でき、常に元のトレーニングセット (未処理のテキスト) を保持し、分類子を新しいツイート (未処理のテキスト) に適用します。 )フィルタによって導出された語彙を使用して。StringToWordVectorJ48NaiveBayesStringToWordVector

これを行う方法については、「WEKA でのテキストマイニングのためのコマンドライン関数」のコマンドラインと、「WEKA を使用した Java の単純なテキスト分類子」のプログラムを使用して確認できます。

machine-learning - Weka テキスト分類から結果のドキュメントを出力する方法

1 に答える 1

Related

Reference