私はscikit-learnを使用してKmeansを実験しています。高速ですが、引数としてクラスターの数が必要です。私が試したいのは、ドキュメントの母集団に基づいてクラスターの数を自動的に計算することです。
以前に使用したハッシュベースの近傍アルゴリズム(ssdeep)は、距離に基づいて類似性クラスターを取得できます。kmeansのクラスターサイズを自動的に取得するにはどうすればよいですか。
KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
name="k-means++", data=data)
そのcluster_countを自動的に計算したいのですが、それは可能ですか?私のテストデータセットは、20_newsgroupからのランダムなファイルのコレクションであり、フォルダー、単一フォルダーに事前に分類されていないため、ラベルはありません。