matlab - SVM - トレーニングサンプル数と特徴数の関係

Question

訓練サンプルの数と訓練データの次元との関係はどうあるべきですか?

たとえば、16000 個の特徴を持つ 20000 個のトレーニングサンプルがあるとします。PCA を使用して次元削減を行うケースを検討していますが、トレーニングデータを何次元に削減すればよいかわかりません。これらの間に関係はありますか？2 つのクラスと線形カーネルを持つサポートベクターマシン分類器を使用しています。

score 4 · Accepted Answer

SVM によって検出された解は、サンプルがまたがる空間に自動的に制限されるため、PCA を使用して分散がゼロの次元を取り除くだけでは、解は変わりません。また、damienfrancois が書いているように、それ以上に削減すると、関連する情報が破壊される危険があります。これを回避するには、次の 2 つのオプションがあります。

1)構造的リスクの最小化は興味深い理論的概念であるだけでなく、アプリケーションにとって正しいことを行い、データをそのまま使用することを信じてください。

2)特徴選択アルゴリズムを使用して、実際に有益な特徴/組み合わせを見つけます。ただし、機能の最適な組み合わせを見つけることは、非常に多くの機能に対して明らかに実行可能ではないため、機能を個々のパフォーマンス (線形の場合: t スコア) で並べ替えてから、必要な最適な機能の数をテストすることができます。良い結果を得るために。

Zaw Lin のコメントはもちろん正しいです。このような高次元空間でいつでもクラスを分離できますが、同様に、もちろん分類器のパフォーマンスはトレーニングデータではなく、たとえばクロス検証を使用して評価する必要があります。

matlab - SVM - トレーニング サンプル数と特徴数の関係

2 に答える 2

Related

Reference

matlab - SVM - トレーニングサンプル数と特徴数の関係