1

Weka の GUI を使用してテキスト ドキュメントを分類しています。私のデータセットは .arff 形式です。

StringToWordVector フィルターを適用します。次に、RemovePercentage フィルターを適用して、データ セットをトレーニング セットとテスト セットに分割します。合計 99 個のインスタンスと 934 個の属性が含まれています。トレーニングとテストの分割後、トレーニング セットには 66 個のインスタンスが含まれ、テスト セットには 33 個のインスタンスが含まれます。

トレーニング セットでモデルを学習します。結果は精度として 100% です。次に、テスト セットで学習したモデルをテストします。結果は 3.0303 % です。

3.0303 % を取得する理由と、この結果を改善する方法を理解するのを手伝ってくれる人はいますか?

4

1 に答える 1

2

Naive Bayes が学習したモデルは過適合です。これを防ぐために、さまざまなトレーニング/テスト分割 (または相互検証) を試すことができます。Naive Bayes アルゴリズムのパラメーターを調整するか、別のアルゴリズムを使用することもできます。

于 2012-03-06T21:19:56.103 に答える