1

主成分分析で

主成分に投影されたデータが、なぜ主成分固有ベクトルに対応する固有値によって分散するのか疑問に思いました。

教科書に説明がありません。

4

3 に答える 3

3

主成分分析(PCA)では、新しい共分散行列のすべての非対角要素がゼロになるように(つまり、新しい座標が無相関になるように)、元の座標系の回転を計算しています。固有ベクトルは新しい座標軸の方向を定義し、固有値は新しい共分散行列(新しい軸に沿った分散)の対角要素に対応します。したがって、固有値は、定義上、対応する固有ベクトルに沿った分散を定義します。

元のすべてのデータ値に定数(1より大きい値)を掛けると、データの分散(および共分散)が増加することに注意してください。次に、変更されたデータに対してPCAを実行すると、計算する固有ベクトルは同じになります(座標の相関を解除するには、同じ回転が必要です)が、新しい座標軸に沿ったデータの分散が増加するため、固有値は増加します。

于 2012-08-15T13:13:14.640 に答える
2

良い質問。CMUの36350講義ノートをお読みください。要するに、PCA最適化問題が組み立てられる方法は、サンプル共分散行列の固有ベクトルを取ることによって解決されるラグランジュ制約最適化固有問題(2-5ページ)につながります。

于 2012-08-15T21:59:57.433 に答える
1

主成分分析で行っているのは「共分散行列の対角化」であり、共分散を対角化する座標基底では、各成分の分散を読み取ることができます。

本当に理解するには、固有値問題の根底にある線形代数を学習する必要があります。「エルミート行列の固有値は直交変換では不変である」などですが、試すことができるのは次のとおりです。

  1. x分散のあるゼロ平均ガウス分布としていくつかの値を生成しますsigma_x2
  2. 分散を持つゼロ平均ガウス分布として独立したy値を生成しますsigma_y2<sigma_x2
  3. これを2次元データセットとして視覚化します。相関行列が対角線になるように構築されており、各方向のデータの分散(x,y)が共分散行列の対応する要素であることに注意してください。また、この行列の2つの固有値はであり、固有ベクトルはとであることに注意してsigma_x2,sigma_x1ください。[1,0][0,1]
  4. 次に、画像全体を回転させるだけで、相関データセットを作成します。数学的には、直交行列を選択し、各サンプルOの回転バージョンを生成します。[x,y]この変換されたデータセットの相関行列には、非対角要素、つまりxとの間の相関があることがわかりますy。ただし、固有値分解を行う場合、固有ベクトルは、最初にデータを回転させるために使用される直交行列の列にすぎず、固有値は元の固有値です。

主成分分析、つまり共分散行列の固有値分解は、このプロセスを逆に実行します。つまり、相関データセットから開始し、次に共分散行列を対角化する座標基底を導出します。

頭を動かすには、おそらく形式的な数学とある程度の経験の両方を学ぶ必要があります。おそらく、2次元または3次元の問題で試してみる(そして視覚化する)と、その感触をつかむのに役立ちます。

于 2012-08-13T21:36:10.523 に答える