1

Weka の SimpleKMeans 関数を使用して、96000 個の用語を (単語として) クラスター化しています。Weka は、目的のクラスター番号の数をパラメーターとして受け取ります。したがって、num に 2 が返されます。クラスタのデフォルト。私が持っているデータセットは 96000x641000 のスパース データセットです。最初にクラスター番号を 10000 にしましたが、推奨プロセスには多すぎると思います。アルゴリズムに関してクラスター数を計算したり、理想的なクラスター数を見つけたりする方法はありますか?

4

2 に答える 2

1

K-means バリアント アルゴリズムの場合、'k' の初期予測には経験則があります。一般的には、k = (n / 2) ^ 0.5 が適しています。ここで、n = データ ポイントの数です。

于 2012-11-20T10:13:01.963 に答える