ニュース記事の分類にSVMを使用しようとしています。
機能(ドキュメントにある固有の単語)を行として含むテーブルを作成しました。これらの機能を使用して重みベクトルマッピングを作成しました。つまり、記事に特徴ベクトルテーブルの一部である単語が含まれている場合、その場所は1
またはとしてマークされます0
。
例:-生成されたトレーニングサンプル...
1 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17 :1 18:1 19:1 20:1 21:1 22:1 23:1 24:1 25:1 26:1 27:1 28:1 29:1 30:1
これは最初のドキュメントであるため、すべての機能が提供されています。
クラスラベルとして1
、を使用しています。0
分類にsvm.Netを使用しています。
トレーニングデータとして手動で分類された重みベクトルを300
指定しました。生成されたモデルは、すべてのベクトルをサポートベクターとして使用していますが、これは確かに過剰適合です。
私の総特徴(unique words/row count
特徴ベクトルDBテーブル内)は7610
です。
理由は何でしょうか?
このため、私のプロジェクトはかなり悪い状態になっています。利用可能なすべての記事をポジティブな記事として分類しています。
LibSVMバイナリ分類では、クラスラベルに制限はありますか?
との代わりに、0
を使用しています。問題ありますか?1
-1
+1