pca - バイナリデータに対する主成分分析 (PCA) の使用

Question

問題の次元 (属性) を削減するために、バイナリ属性に PCA を使用しています。初期次元は 592 で、PCA 後の次元は 497 です。別の問題の数値属性で以前に PCA を使用したところ、次元を大幅に削減することができました (初期次元の半分)。バイナリ属性は PCA の能力を低下させると思いますが、その理由はわかりません。PCA が数値データほどうまく機能しない理由を教えてください。

ありがとうございました。

score 4 · Accepted Answer

0/1 データの主成分は、ゆっくりまたは急速に低下する可能性があり、連続データの PC も低下します。これはデータによって異なります。あなたのデータを説明できますか？

次の図は、連続画像データの PC と 0/1 に量子化された同じデータの PC を比較することを目的としています。この場合、決定的ではありません。

大きな行列の近似を取得する方法として PCA を見てください。まず、近似 A ~ c UV ^T , c [Ui Vj]
という 1 つの項を使用します。 A を 10k x 500 とすると、これを少し考えてみましょう: U は 10k の長さ、V は 500 の長さです。一番上の行は c U1 V、2 番目の行は c U2 V ... すべての行は V に比例します。同様に、一番左の列は c U V1 ... すべての列は U に比例します。しかし、すべての行が同様に (互いに比例)、それらは行または列 0100010101 の A 行列に近づくことはできません ... より多くの項を使用すると、 A ~ c1 U1 V1 ^T + c2 U2 V2 ^T + ... に近づくことができますA: c _iが小さいほど、高速になります.. (もちろん、500 項すべてが A を丸め誤差の範囲内で正確に再現します。)

ここに画像の説明を入力一番上の行は "lena" で、よく知られた 512 x 512 行列で、1 項と 10 項の SVD 近似があります。一番下の行は lena で 0/1 に離散化されており、ここでも 1 項と 10 項があります。0/1 lena の方がずっと悪いと思っていました -- コメント、誰か ?

(UV ^Tは U ⊗ V とも書かれ、「ダイアド」または「外積」と呼ばれます。)

(ウィキペディアの記事特異値分解と低ランク近似は、少し数学が重いです。David Austin による AMS コラム、 We Recommend a Singular Value Decomposition は、SVD / PCA に関するいくつかの直感を提供します - 強くお勧めします。)

pca - バイナリ データに対する主成分分析 (PCA) の使用

1 に答える 1

Related

Reference

pca - バイナリデータに対する主成分分析 (PCA) の使用