matlab - 巨大なスパースデータセットの主成分分析 (PCA)

Question

次元 50000 の約 1000 個のベクトル x_i がありますが、それらは非常にまばらです。それぞれに約 50 ～ 100 個の非ゼロ要素しかありません。このデータセット (MATLAB) で PCA を実行して、データの不要な極端な次元を削減したいと考えています。

残念ながら、すべての例から平均を差し引く必要があるため、中間の完全な行列なしでこれを行う方法はわかりません。そしてもちろん、1000x50000 のマトリックスは大きすぎてメモリに収まりません (試してみると、何らかの理由でコンピューター全体が実際にクラッシュします)。Matlab のビルトインprincompも、使用しようとするとコンピューターがクラッシュします。

私の質問は次のとおりです。中間ステップとして大規模な非疎行列を必要とせずに、このデータに対して PCA を実行する方法はありますか?

score 6 · Accepted Answer

平均を減算するため、または共分散行列を計算するために、完全なデータ行列を作成する必要はありません。1000x1000の共分散行列を繰り返し計算するだけです（データベクトルをループします）。共分散行列を作成したら、共分散行列を中央に配置することで、平均を暗黙的に減算できます。カーネル行列を中央に配置する方法を説明しているカーネルPCAに関するこのペーパーの最後のセクションを参照してください。基本的に共分散行列と同じカーネル行列を考えてみてください。

score 1 · Accepted Answer

上記のデータセットの PCA を計算するには、アルゴリズムで 1000x1000 の共分散行列を操作するだけで済みます。これは、ほとんどの PCA 実装にとって大したことではないと思います。Windows 7 コンピューターを使用している場合は、PCA の 64 ビット実装を試すことができます。Matlab が 64 ビット PCA をサポートしているかどうかはわかりませんが、VisuMap のようなアプリケーションはそれらのケースを簡単に処理できます。

score 1 · Accepted Answer

次の戦略が機能します。

[~,~,PC] = svds(X,k);
mu = mean(X);
S = sparse(size(X,1),k);
for i=1:size(X,1)
    S(i,:) = (X(i,:)-mu)*PC;
end

の右特異ベクトルXはの固有ベクトルでありcov(X,1)、したがっての主成分ですX。主成分スコアを一度に計算するのではなくインスタンスごとに計算することで、スパースからフルへの移行に伴うメモリオーバーフローを回避できます。必ず作るだけで大丈夫k<<pです。

score 0 · Accepted Answer

まず、平均を差し引くために共分散行列は必要ありません。

次に、PCを計算するには、この質問への回答を参照してください。

score 0 · Accepted Answer

を使用する必要はありませんprincomp。この回答は、でそれを行う方法を説明しますeig。に置き換えeigますeigs。

score 0 · Accepted Answer

トップ PC については、反復 PCAを参照してください。これは 50k 密度の合計を累積します。50k スパース、動作するはずです。
2 番目のものについては、最初のものをオンザフライで減算します。つまり、インスタンス化せずに (X - U1 d1 Vt1) を使用します。
(ランダム化された PCAは、Python scikit-learn でそれを行います。Matlab はわかりません。)

matlab - 巨大なスパース データセットの主成分分析 (PCA)

6 に答える 6

Related

Reference

matlab - 巨大なスパースデータセットの主成分分析 (PCA)