data-mining - 高次元データ向けの最速の主成分分析 PCA アルゴリズム?

Question

各サンプルが約 10,000 の特徴を表示する、約 40,000 のサンプルで構成されるデータセットで主成分分析を実行したいと考えています。

Matlab の princomp 関数を使用すると時間がかかります...最速のアルゴリズムは何でしょうか? i7 デュアルコア / 4GB RAM の場合、どのくらいの時間がかかりますか?

ご協力ありがとうございました

score 0 · Accepted Answer

最近、これに関する良い研究がいくつかあります。新しいアプローチでは、行列を数回読み取るだけで最大の固有値で高い精度が得られる「ランダム化アルゴリズム」が使用されます。これは、高精度に到達するために数回の行列とベクトルの乗算を必要とするベキ反復とは対照的です。

新しい研究の詳細については、こちらをご覧ください。

このコードはあなたのためにそれを行います:

選択した言語がそこにない場合は、独自のランダム化された SVD を簡単に作成できます。行列ベクトルの乗算とそれに続く市販の SVD の呼び出しのみが必要です。

1 に答える 1