r - k-means と EM で最適なクラスター数を選択するためにどのような方法を使用しますか?

Question

クラスタリングには多くのアルゴリズムが利用可能です。一般的なアルゴリズムは K 平均法です。このアルゴリズムでは、指定された数のクラスターに基づいて、オブジェクトに最適なクラスターを見つけるために反復処理が行われます。

k-means クラスタリングでデータのクラスター数を決定するためにどの方法を使用しますか?

R で利用可能なパッケージにはV-fold cross-validation、適切なクラスター数を決定する方法が含まれていますか?

もう 1 つのよく使用されるアプローチは、期待値の最大化 (EM) アルゴリズムです。これは、各インスタンスに確率分布を割り当て、各インスタンスが各クラスターに属する確率を示します。

このアルゴリズムは R で実装されていますか?

そうである場合、クロス検証によって最適な数のクラスターを自動的に選択するオプションはありますか?

代わりに、他のクラスタリング方法を使用しますか?

score 0 · Accepted Answer

先週、私は K-Means クラスタリングプログラム用に、そのようなクラスタ数推定アルゴリズムをコード化しました。以下に概説されている方法を使用しました。

実装における最大の問題は、機能する適切なクラスター検証インデックス (つまりエラーメトリック) を見つけなければならないことでした。これは処理速度の問題ですが、現在の結果は妥当に見えます。

2 に答える 2