3

weka を使用して分類モデルを構築しました。{spam,non-spam} という 2 つのクラスがあります。stringtowordvector フィルターを適用した後、19000 レコードに対して 10000 属性を取得します。次に、liblinear ライブラリを使用して、次のように F スコアを与えるモデルを構築しています: スパム-94% 非スパム-98%

同じモデルを使用して新しいインスタンスを予測すると、それらすべてがスパムとして予測されます。また、トレーニングセットと同じテストセットを使用しようとすると、それらもすべてスパムとして予測します。私は問題を見つけるために精神的に疲れ果てています.どんな助けでも大歓迎です.

4

1 に答える 1

0

私もよく間違えます。次に、このビデオを見て、それがどのように行われたかを思い出します。トレーニング データセットとテスト セットに StringToWordVector フィルター) を正しくロードします。

これは、weka 3.6、weka 3.7 で表示されます。若干異なる場合があります。

ZeroR は何を提供しますか? 100% に近い場合は、どの分類アルゴリズムもそれほど離れていないはずです。

なぜ F メジャーを最適化するのですか? ただ尋ねる。私はこれを使用したことがなく、それについてあまり知りません。(非スパムよりもスパムの方がはるかに多いと仮定して、「精度」メトリックを最適化します)。

于 2015-05-19T16:44:10.777 に答える