13

クラスタリングには多くのアルゴリズムが利用可能です。一般的なアルゴリズムは K 平均法です。このアルゴリズムでは、指定された数のクラスターに基づいて、オブジェクトに最適なクラスターを見つけるために反復処理が行われます。

k-means クラスタリングでデータのクラスター数を決定するためにどの方法を使用しますか?

R で利用可能なパッケージにはV-fold cross-validation、適切なクラスター数を決定する方法が含まれていますか?

もう 1 つのよく使用されるアプローチは、期待値の最大化 (EM) アルゴリズムです。これは、各インスタンスに確率分布を割り当て、各インスタンスが各クラスターに属する確率を示します。

このアルゴリズムは R で実装されていますか?

そうである場合、クロス検証によって最適な数のクラスターを自動的に選択するオプションはありますか?

代わりに、他のクラスタリング方法を使用しますか?

4

2 に答える 2

0

先週、私は K-Means クラスタリング プログラム用に、そのようなクラスタ数推定アルゴリズムをコード化しました。以下に概説されている方法を使用しました。

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.70.9687&rep=rep1&type=pdf

実装における最大の問題は、機能する適切なクラスター検証インデックス (つまりエラー メトリック) を見つけなければならないことでした。これは処理速度の問題ですが、現在の結果は妥当に見えます。

于 2010-10-21T01:35:22.170 に答える