r - 第 1 主成分にはほとんどすべての情報が含まれていますが、分類の最良の指標ではないようです。

Question

180 要素の特徴ベクトルがあり、それに PCA を適用しました。問題は、最初の pc の分散が大きいことですが、この pc1 と pc2 のバイプロットダイアグラムによると、これは外れ値が原因で発生しているようです。これは私には奇妙です。

どうやら最初の PC は、ここで分類するための最良の指標ではありません。

pc2 と pc3 のバイプロット図も次のとおりです。

これにはRを使用しています。なぜこれが起こっているのか、どうすれば解決できるのでしょうか? 外れ値を削除する必要がありますか? はいの場合、R による最善の方法は何ですか。

- 編集

データを正規化するために使用prcomp(features.df, center= TRUE, scale = TRUE)しています。

score 0 · Accepted Answer

外れ値がなくても、目標が分類または「差別」である場合、PCA はまったく無意味になる可能性があります ((完全に「政治化された」という用語は、今日の統計のコンテキストではまれです))。そのため、「彼ら」は「crimcoords」を異なるものとして発明しましたが、「prin.coords」に関連しており、後者は「主座標」(主成分に関連) の統計スラングです。「Crimcoords」は、Web 上で見つけるのが容易ではなくなったようです。前世紀には、すべての優れた統計学者は +- 彼らが何であるかを知っていました. Gnanadesikan のモノグラフィー "Methods for Statistical Data Analysis of Multivariate Observations" (第 1 版 1977 年、第 2 版 1997 年; Wiley) が参考になると思われます。

そして、Ram Gnanadesikan は、外れ値の問題をすでに十分に認識しており、「堅牢な」方法について言及しています。

現在、ロバストな多変量統計の「標準」R パッケージは「rrcov」(Valentin Todorov 作) です...トピックの最新バージョン (「lasso」型の正則化を許可していると思います) はパッケージ「rrlda」であり、main 関数rrlda()が実際に許可されています。ロバストとなげなわ (L1) ペナルティの両方。

r - 第 1 主成分にはほとんどすべての情報が含まれていますが、分類の最良の指標ではないようです。

1 に答える 1

Related

Reference