サポート ベクター マシン (SVM) を使用してドキュメント分類を行おうとしています。私が持っている書類はメールの集まりです。SVM 分類子をトレーニングするドキュメントが約 3000 個あり、分類が必要なテスト ドキュメント セットが約 700 個あります。
最初に、バイナリ DocumentTermMatrix を SVM トレーニングの入力として使用しました。テスト データを使用した分類では、約 81% の精度が得られました。DocumentTermMatrix は、いくつかのストップワードを削除した後に使用されました。
このモデルの精度を向上させたかったので、LSA/SVD ベースの次元削減を使用して、結果の削減された係数を分類モデルへの入力として使用してみました (元のバッグの 20、50、100、および 200 の特異値で試しました)。 〜3000語)。分類のパフォーマンスは、いずれの場合も悪化しました。(LSA/SVD を使用するもう 1 つの理由は、65 レベルの応答変数の 1 つに関するメモリの問題を解決することでした)。
LSA/SVD 分類のパフォーマンスを向上させる方法について、誰かがいくつかの指針を提供できますか? これは特定のデータやコードのない一般的な質問であることは認識していますが、デバッグを開始する場所について専門家からの情報をいただければ幸いです。
参考までに、テキストの前処理 (パッケージ: tm、snowball、lsa) と分類モデルの構築 (パッケージ: kernelsvm) に R を使用しています。
ありがとうございました。