これはより理論的な問題です。
クラスターの数や近隣のサイズなどの入力パラメーターを必要としないクラスター化アルゴリズム (フラットまたは階層) を知っていますか? つまり、データを入力としてアルゴリズムに送り、クラスターを出力として取得するだけです。
関連する論文/ドキュメントについてアドバイスをいただければ幸いです。
これはより理論的な問題です。
クラスターの数や近隣のサイズなどの入力パラメーターを必要としないクラスター化アルゴリズム (フラットまたは階層) を知っていますか? つまり、データを入力としてアルゴリズムに送り、クラスターを出力として取得するだけです。
関連する論文/ドキュメントについてアドバイスをいただければ幸いです。
クラスターの数を自動的に決定することは、未解決の研究問題であると考えられている中で、本当に難しい問題です。
最も高度なクラスタリング手法の1つは、データをディリクレプロセス混合としてモデル化することです。 ベイジアン階層的クラスタリングを参照してください。ただし、これは簡単ではなく、ベイジアン法の確かなバックグラウンドとマルコフ連鎖モンテカルロ(MCMC)による推定が必要です。
このような方法では、クラスターの数を自動的に見積もることができます。
通常、クラスタリングの意味を定義すれば、答えは自ずと見えてきます。これは難しい部分です。
実数値データでは、自動h選択で平均シフトを使用するのが好きです。クラスターはデータ密度プロットのモードに対応し、グループ化の結果は流域変換に似ています。
http://en.wikipedia.org/wiki/Mean-shift
http://en.wikipedia.org/wiki/Kernel_density_estimation
http://en.wikipedia.org/wiki/Multivariate_kernel_density_estimation