weka を使用して分類モデルを構築しました。{spam,non-spam} という 2 つのクラスがあります。stringtowordvector フィルターを適用した後、19000 レコードに対して 10000 属性を取得します。次に、liblinear ライブラリを使用して、次のように F スコアを与えるモデルを構築しています: スパム-94% 非スパム-98%
同じモデルを使用して新しいインスタンスを予測すると、それらすべてがスパムとして予測されます。また、トレーニングセットと同じテストセットを使用しようとすると、それらもすべてスパムとして予測します。私は問題を見つけるために精神的に疲れ果てています.どんな助けでも大歓迎です.