5

トレーニングに必要な膨大なデータ セット (32000*2500) があります。これは私の分類器には多すぎるように思われるので、次元削減、特に PCA について読むことにしました。

私の理解では、PCA は現在のデータを選択し、それらを別の (x,y) ドメイン/スケールで再プロットします。これらの新しい座標は何も意味しませんが、1 つの軸に最大の変動を与えるようにデータが再配置されます。これらの新しい係数の後、cooeff最小変動を持つものを削除できます。

現在、これを MatLab に実装しようとしていますが、提供される出力に問題があります。MatLab は常に行を観測値、列を変数と見なします。したがって、関数への inoutpcaは size の行列になります(32000*2500)。これは、サイズ の出力行列で PCA 係数を返します2500*2500

pca のヘルプには次のように記載されています。

coeff の各列には 1 つの主成分の係数が含まれ、列は成分分散の降順になっています。

この出力では、データの観測値はどの次元ですか? これを分類子に渡す必要がある場合、 の行はデータのcoeff観測結果を表すのでしょうか、それとも の列になりcoeffますか?

また、変動が最も少ない係数を削除するにはどうすればよいですか?

4

1 に答える 1