180 要素の特徴ベクトルがあり、それに PCA を適用しました。問題は、最初の pc の分散が大きいことですが、この pc1 と pc2 のバイプロット ダイアグラムによると、これは外れ値が原因で発生しているようです。これは私には奇妙です。
どうやら最初の PC は、ここで分類するための最良の指標ではありません。
これにはRを使用しています。なぜこれが起こっているのか、どうすれば解決できるのでしょうか? 外れ値を削除する必要がありますか? はいの場合、R による最善の方法は何ですか。
- 編集
データを正規化するために使用prcomp(features.df, center= TRUE, scale = TRUE)
しています。