私はいくつかの文書分類タスクを試していますが、SVM はこれまでのところ TF*IDF 特徴ベクトルでうまく機能しています。用語の頻度に基づいていないいくつかの新機能 (ドキュメントの長さなど) を組み込み、これらの新機能が分類のパフォーマンスに貢献するかどうかを確認したいと考えています。次の質問があります。
- 新しい機能を古い用語の周波数ベースの機能と単純に連結し、この異種の機能空間で SVM をトレーニングすることはできますか?
- そうでない場合、複数のカーネル学習は、各サブ機能空間でカーネルをトレーニングし、線形補間を使用してそれらを結合することによってそれを行う方法ですか? (まだ scikit-learn に MKL が実装されていませんよね?)
- それとも、MaxEnt や決定木など、異種の機能を適切に処理する代替学習器に頼るべきでしょうか?
親切なアドバイスをありがとうございました!