0

ドキュメントを 2 次元でグラフ化できるように、次元を削減するために、約 50,000 のドキュメントと 300,000 の単語/用語を含む非常に大きなデータセットに対して LSA または主成分分析を実行しようとしています。

Python と MATLAB で試しましたが、データセットのボリュームが原因で、どちらのインスタンスでもシステムがメモリ不足になり、クラッシュします。負荷を軽減する方法や、より迅速かつ効率的に実行できる近似 LSA/PCA を実行する方法を知っている人はいますか? 私の全体的な目標は、300k ワードを大幅に次元削減することです。

4

1 に答える 1

0

おじゃのルールを見ればわかる。PCA を学習するための反復手順を定義します。ここで、メモリの過負荷を防ぐために、ディスクからデータセット全体を一度にロードしないように実装する必要があります。

于 2012-08-30T10:33:48.930 に答える