ドキュメントの分類にサポート ベクター マシンを使用しています。各ドキュメントの機能セットはtf-idfベクトルです。サイズ N の各 tf-idf ベクトルを持つ M 個のドキュメントがあります。M * N 行列を指定します。
M のサイズはちょうど 10 ドキュメントで、tf-idf ベクトルは 1000 単語ベクトルです。したがって、私の機能はドキュメントの数よりもはるかに大きくなります。また、各単語は 2 つまたは 3 つの文書に出現します。各機能(単語)を正規化している場合、つまり[0,1]での列の正規化
val_feature_j_row_i = ( val_feature_j_row_i - min_feature_j ) / ( max_feature_j - min_feature_j)
もちろん、それは私に0、1を与えます。
そして、それは私に悪い結果をもたらします。私はrbf 関数C = 0.0312、ガンマ = 0.007815 でlibsvmを使用しています
推奨事項はありますか?
さらにドキュメントを含める必要がありますか? またはシグモイドまたはより良い正規化方法のような他の関数?