0

そのため、15,000 ツイートのセットに対して多項単純ベイズ分類アルゴリズムを実行しています。最初に各ツイートを Weka の StringToWordVector 関数に基づいて単語特徴のベクトルに分割します。次に、結果を新しいarffファイルに保存して、トレーニングセットとしてユーザーに提供します. このプロセスを別の 5k ツイートのセットで繰り返し、トレーニング セットから派生した同じモデルを使用してテスト セットを再評価します。

私たちがやりたいことは、weka がテスト セットで分類した各文をその分類とともに出力することです...アルゴリズムのパフォーマンスと精度の一般的な情報 (精度、再現率、f スコア) を見ることができますが、私たちの分類器に基づいて、weka によって分類された個々の文を見ることができません...とにかくこれを行うことはありますか?

もう 1 つの問題は、最終的に教授がさらに 2 万件のツイートを提供し、この新しい文書を分類することを期待することです。ただし、次のようにこれを行う方法はわかりません。

All of the data we have been working with has been classified manually, both the training and test sets...
however the data we will be getting from the professor will be UNclassified... How can we 
reevaluate our model on the unclassified data if Weka requires that the attribute information must
be the same as the set used to form the model and the test set we are evaluating against?

助けてくれてありがとう!

4

1 に答える 1

1

これらのタスクを達成する最も簡単な方法は、FilteredClassifier. Filterこの種の分類子は aと aを統合するため、フィルターを好みの分類子 ( 、、何でも) にClassifier接続でき、常に元のトレーニング セット (未処理のテキスト) を保持し、分類子を新しいツイート (未処理のテキスト) に適用します。 )フィルタによって導出された語彙を使用して。StringToWordVectorJ48NaiveBayesStringToWordVector

これを行う方法については、「WEKA でのテキスト マイニングのためのコマンド ライン関数」のコマンド ラインと、「WEKAを使用した Java の単純なテキスト分類子」のプログラムを使用して確認できます。

于 2014-04-22T07:19:26.657 に答える