python - kmeansのクラスターサイズを自動的に計算する

翻译自：https://stackoverflow.com/questions/13684041 2012-12-03T13:15:20.690

1085 次

私はscikit-learnを使用してKmeansを実験しています。高速ですが、引数としてクラスターの数が必要です。私が試したいのは、ドキュメントの母集団に基づいてクラスターの数を自動的に計算することです。

以前に使用したハッシュベースの近傍アルゴリズム（ssdeep）は、距離に基づいて類似性クラスターを取得できます。kmeansのクラスターサイズを自動的に取得するにはどうすればよいですか。

KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
          name="k-means++", data=data)

そのcluster_countを自動的に計算したいのですが、それは可能ですか？私のテストデータセットは、20_newsgroupからのランダムなファイルのコレクションであり、フォルダー、単一フォルダーに事前に分類されていないため、ラベルはありません。

0 に答える 0