3

非常に大きな行列で (k-means) クラスタリングを実行しようとしています。

マトリックスは約 500000 行 x 4000 列ですが、非常にまばらです (行ごとに "1" の値が 2 つだけ)。約2000個のクラスターを取得したい。

2 つの質問があります。- アルゴリズムが終了するのに必要な時間をどのように見積もればよいですか? 一度 weka を試してみましたが、どれくらいの時間がかかるかわからなかったので、数日後に作業を中止しました。

ありがとう!

4

3 に答える 3

2

http://lucene.apache.org/mahout/

于 2010-08-26T23:00:13.803 に答える
1

あなたの場合、問題は入力のサイズだけだと思います。

大規模でまばらなデータセットの優れたツールとして「cluto」をお勧めします。これは C で書かれています。約 400 列の約 1700 万行を試しました。そして、それは速く動作します。

Cluto ライブラリのリンク

于 2013-06-16T21:17:22.943 に答える
0

Rでsparclパッケージを試すことができます.sparse k-meansと階層的クラスタリングを実装しています. わかりにくい

于 2014-08-08T17:00:14.233 に答える