java - Weka K-means の理想的なクラスター数

Question

Weka の SimpleKMeans 関数を使用して、96000 個の用語を (単語として) クラスター化しています。Weka は、目的のクラスター番号の数をパラメーターとして受け取ります。したがって、num に 2 が返されます。クラスタのデフォルト。私が持っているデータセットは 96000x641000 のスパースデータセットです。最初にクラスター番号を 10000 にしましたが、推奨プロセスには多すぎると思います。アルゴリズムに関してクラスター数を計算したり、理想的なクラスター数を見つけたりする方法はありますか?

score 1 · Accepted Answer

K-means バリアントアルゴリズムの場合、'k' の初期予測には経験則があります。一般的には、k = (n / 2) ^ 0.5 が適しています。ここで、n = データポイントの数です。

java - Weka K-means の理想的なクラスター数

2 に答える 2

Related

Reference