ドキュメントを 2 次元でグラフ化できるように、次元を削減するために、約 50,000 のドキュメントと 300,000 の単語/用語を含む非常に大きなデータセットに対して LSA または主成分分析を実行しようとしています。
Python と MATLAB で試しましたが、データセットのボリュームが原因で、どちらのインスタンスでもシステムがメモリ不足になり、クラッシュします。負荷を軽減する方法や、より迅速かつ効率的に実行できる近似 LSA/PCA を実行する方法を知っている人はいますか? 私の全体的な目標は、300k ワードを大幅に次元削減することです。