訓練サンプルの数と訓練データの次元との関係はどうあるべきですか?
たとえば、16000 個の特徴を持つ 20000 個のトレーニング サンプルがあるとします。PCA を使用して次元削減を行うケースを検討していますが、トレーニング データを何次元に削減すればよいかわかりません。これらの間に関係はありますか?2 つのクラスと線形カーネルを持つサポート ベクター マシン分類器を使用しています。
訓練サンプルの数と訓練データの次元との関係はどうあるべきですか?
たとえば、16000 個の特徴を持つ 20000 個のトレーニング サンプルがあるとします。PCA を使用して次元削減を行うケースを検討していますが、トレーニング データを何次元に削減すればよいかわかりません。これらの間に関係はありますか?2 つのクラスと線形カーネルを持つサポート ベクター マシン分類器を使用しています。
SVM によって検出された解は、サンプルがまたがる空間に自動的に制限されるため、PCA を使用して分散がゼロの次元を取り除くだけでは、解は変わりません。また、damienfrancois が書いているように、それ以上に削減すると、関連する情報が破壊される危険があります。これを回避するには、次の 2 つのオプションがあります。
1)構造的リスクの最小化は興味深い理論的概念であるだけでなく、アプリケーションにとって正しいことを行い、データをそのまま使用することを信じてください。
2)特徴選択アルゴリズムを使用して、実際に有益な特徴/組み合わせを見つけます。ただし、機能の最適な組み合わせを見つけることは、非常に多くの機能に対して明らかに実行可能ではないため、機能を個々のパフォーマンス (線形の場合: t スコア) で並べ替えてから、必要な最適な機能の数をテストすることができます。良い結果を得るために。
Zaw Lin のコメントはもちろん正しいです。このような高次元空間でいつでもクラスを分離できますが、同様に、もちろん分類器のパフォーマンスはトレーニング データではなく、たとえばクロス検証を使用して評価する必要があります。