約 100000 行 x 100000 列 (スパース行) を持つ巨大なデータセットをクラスター化する Java コードを作成します。しかし、データセットは疎なインスタンスで作成されるため、疎行列の構造を持っています。
コードで 3 つのクラスタリング関数を使用できます。
JavaML: Kmeans、Weka: SimpleKmeans、Weka: Xmeans
Weka の SimpleKmeans 関数を実行しましたが、約 9 時間動作しており、クラスタリング プロセスはまだ終わっていません。これらの関数の推定実行時間と、このデータセットに最も適しているのはどれですか?