Weka の GUI を使用してテキスト ドキュメントを分類しています。私のデータセットは .arff 形式です。
StringToWordVector フィルターを適用します。次に、RemovePercentage フィルターを適用して、データ セットをトレーニング セットとテスト セットに分割します。合計 99 個のインスタンスと 934 個の属性が含まれています。トレーニングとテストの分割後、トレーニング セットには 66 個のインスタンスが含まれ、テスト セットには 33 個のインスタンスが含まれます。
トレーニング セットでモデルを学習します。結果は精度として 100% です。次に、テスト セットで学習したモデルをテストします。結果は 3.0303 % です。
3.0303 % を取得する理由と、この結果を改善する方法を理解するのを手伝ってくれる人はいますか?