matrix - 非常に大きな疎行列でのクラスタリング?

Question

非常に大きな行列で (k-means) クラスタリングを実行しようとしています。

マトリックスは約 500000 行 x 4000 列ですが、非常にまばらです (行ごとに "1" の値が 2 つだけ)。約2000個のクラスターを取得したい。

2 つの質問があります。- アルゴリズムが終了するのに必要な時間をどのように見積もればよいですか? 一度 weka を試してみましたが、どれくらいの時間がかかるかわからなかったので、数日後に作業を中止しました。

ありがとう！

score 2 · Accepted Answer

2

于 2010-08-26T23:00:13.803 に答える

score 1 · Accepted Answer

あなたの場合、問題は入力のサイズだけだと思います。

大規模でまばらなデータセットの優れたツールとして「cluto」をお勧めします。これは C で書かれています。約 400 列の約 1700 万行を試しました。そして、それは速く動作します。

score 0 · Accepted Answer

Rでsparclパッケージを試すことができます.sparse k-meansと階層的クラスタリングを実装しています. わかりにくい

3 に答える 3