r - 非常に大きなスパース行列での R の k-means クラスタリング?

Question

非常に大きな行列で k-means クラスタリングを実行しようとしています。

マトリックスは約 500000 行 x 4000 列ですが、非常にまばらです (行ごとに "1" の値が 2 つだけ)。

全体がメモリに収まらないので、スパース ARFF ファイルに変換しました。しかし、R は明らかにスパース ARFF ファイル形式を読み取ることができません。また、データをプレーンな CSV ファイルとして持っています。

このようなスパース行列を効率的にロードするために R で利用できるパッケージはありますか? 次に、クラスターパッケージの通常の k-means アルゴリズムを使用して続行します。

どうもありがとう

score 14 · Accepted Answer

bigmemoryパッケージ（または現在はパッケージのファミリー-彼らのWebサイトを参照）は、大規模なデータに対する拡張分析の実行例としてk-meansを使用しました。特に、 k-means関数を含むサブパッケージbiganalyticsを参照してください。

score 1 · Accepted Answer

1

チェックしてください：

library(foreign)
?read.arff

乾杯。

于 2011-06-03T16:03:16.493 に答える

score 1 · Accepted Answer

sparkcl は、スパース階層クラスタリングとスパース k-means クラスタリングを実行します。これは、R に適した (メモリに適合する) 行列に適しているはずです。

==

非常に大きな行列の場合、Apache Spark のスパース行列と MLlib を使用したソリューションを試してみますが、それが現在どの程度実験的であるかはわかりません。

score 0 · Accepted Answer

それを効率的に保持できる R 用の特別な SparseM パッケージがあります。それがうまくいかない場合は、C などのより高性能な言語を試してみます。

4 に答える 4