weka - すべてのインスタンスを1つのクラスとして予測するwekaの分類モデルはなぜですか?

Question

weka を使用して分類モデルを構築しました。{spam,non-spam} という 2 つのクラスがあります。stringtowordvector フィルターを適用した後、19000 レコードに対して 10000 属性を取得します。次に、liblinear ライブラリを使用して、次のように F スコアを与えるモデルを構築しています: スパム-94% 非スパム-98%

同じモデルを使用して新しいインスタンスを予測すると、それらすべてがスパムとして予測されます。また、トレーニングセットと同じテストセットを使用しようとすると、それらもすべてスパムとして予測します。私は問題を見つけるために精神的に疲れ果てています.どんな助けでも大歓迎です.

score 0 · Accepted Answer

私もよく間違えます。次に、このビデオを見て、それがどのように行われたかを思い出します。トレーニングデータセットとテストセットに StringToWordVector フィルター) を正しくロードします。

これは、weka 3.6、weka 3.7 で表示されます。若干異なる場合があります。

ZeroR は何を提供しますか? 100% に近い場合は、どの分類アルゴリズムもそれほど離れていないはずです。

なぜ F メジャーを最適化するのですか? ただ尋ねる。私はこれを使用したことがなく、それについてあまり知りません。（非スパムよりもスパムの方がはるかに多いと仮定して、「精度」メトリックを最適化します）。

weka - すべてのインスタンスを1つのクラスとして予測するwekaの分類モデルはなぜですか?

1 に答える 1

Related

Reference