statistics - PCAの用語ドキュメント行列を介して構築された共分散行列の重要性は何ですか？

Question

私はニューラルネットワークに取り組んでおり、ドキュメントとその中のtf-idfの値を持つさまざまな用語を介して構築された用語-ドキュメント行列の次元を減らすために、PCAを適用する必要があります。このようなもの

           Term 1       Term 2       Term 3       Term 4. ..........
Document 1 

Document 2            tfidf values of terms per document

Document 3 
.
.
.
.
.

PCAは、データの平均を取得し、その平均を減算してから、共分散行列に次の式を使用することで機能します。

行列Mを次元NxNの用語ドキュメント行列とします。

共分散行列は次のようになります

( M x transpose(M))/N-1

次に、固有値と固有ベクトルを計算して、ニューラルネットワークの特徴ベクトルとしてフィードします。私が理解できないのは、共分散行列の重要性と、共分散を見つけるための次元です。

単純な2次元X、Yを考えれば理解できるからです。ここではどの次元が相関していますか？

ありがとうございました

score 0 · Accepted Answer

潜在意味解析は、この関係を非常によく説明しています。また、最初に完全なドキュメント用語マトリックスを使用し、次に縮小されたマトリックスを使用して、用語のリスト（ベクトル）をほぼ一致するドキュメントにマップする方法についても説明します。つまり、なぜ縮小するのかについても説明します。PCA-eigenvectors-eigenvaluesの意味の作成
も参照してください。（そこにある多くの異なる答えは、誰にとっても直感的な人はいないことを示唆しています。）

statistics - PCAの用語ドキュメント行列を介して構築された共分散行列の重要性は何ですか？

1 に答える 1

Related

Reference