2

重複の可能性:
K-MeansアルゴリズムでKを最適
化する方法k-meansクラスタリングを使用するときにkを決定するにはどうすればよいですか?

統計的尺度に応じて、Kを決定できます。標準偏差、平均、分散などのように、または

K-meansアルゴリズムでKを選択する簡単な方法はありますか?

よろしくお願いしますNavin

4

5 に答える 5

4

明示的にk-meansを使用したい場合は、x-meansについて説明している記事を調べることができます。x-meansの実装を使用する場合、k-meansと比較した唯一の違いは、単一のkを指定するのではなく、kの範囲を指定することです。「最良の」選択、wrt。範囲内のいくつかのメジャーは、x-meansからの出力の一部になります。また、平均シフトクラスタリングアルゴリズムを調べることもでき ます。

与えられたデータで計算が可能であれば(おそらくyuraが示唆するようにサンプリングを使用して)、さまざまなkでクラスタリングを実行し、標準のクラスター妥当性測定のいくつかを使用して、結果のクラスターの品質を評価できます。古典的な対策のいくつかをここで説明します:対策

@doug k-means ++が、クラスターの割り当てを開始する前にクラスター数の最適なkを決定するのは正しくありません。k-means ++は、最初のk重心をランダムに選択するのではなく、1つの最初の重心をランダムに選択し、kが選択されるまで中心を連続して選択するという点でのみk-meansと異なります。最初の完全にランダムな選択の後、データポイントは、すでに選択された中心までのデータポイントの距離に依存する潜在的な関数によって決定される確率で、新しい重心として選択されます。k-means++の標準リファレンスはk-means++です: ArthurとVassilvitskiiによる注意深いシードの利点。

また、一般的に主成分の数としてkを選択しても、クラスタリングが改善されるとは思いません。すべてがオリゴを通過する平面にある3次元空間のデータポイントを想像してみてください。次に、2つの主成分を取得しますが、ポイントの「自然な」クラスタリングには、任意の数のクラスターが含まれる可能性があります。

于 2011-06-17T14:50:43.930 に答える
4

一般的に使用される重心の数 (k) のインテリジェントな選択の問題には、2 つの実用的な解決策があります。

1 つ目は、データをPCAすることです。PCA からの出力 (主成分 (固有ベクトル) と、データで観測された変動への累積寄与) は、最適な重心の数を明らかに示唆しています。(たとえば、データの変動性の 95% が最初の 3 つの主成分によって説明される場合、k=3 は k-means の賢明な選択です。)

k をインテリジェントに推定するために一般的に使用される 2 番目の実用的なソリューションは、k-means++と呼ばれる k-means アルゴリズムの改訂版です。本質的に、k-means++ は、前処理ステップの追加によって元の k-means と異なるだけです。このステップでは、重心の数と初期位置が推定されます。

これを行うために k-means++ が依存するアルゴリズムは、理解してコードに実装するのが簡単です。両方の良い情報源は、LingPipe ブログの 2007 年の投稿です。この記事には、k-means++ の優れた説明と、この手法を最初に導入した元の論文への引用が含まれています。

k の最適な選択を提供することは別として、k-means++ は、パフォーマンス (ある公開された比較で k-means と比較して約 1/2 の処理時間) と精度 (1 つの公開された比較で 3 桁の改善) の両方で元の k-means より明らかに優れています。同じ比較研究でエラー)。

于 2011-06-15T09:42:14.353 に答える
4

残念ながら違います。「正しいK」を設定できる、単純であれ複雑であれ、原則に基づいた統計的方法はありません。経験則には、うまくいくこともあればうまくいかないこともあります。

多くのクラスタリング メソッドにはこれらのタイプのパラメーターがあるため、状況はより一般的です。

于 2011-06-15T06:47:28.963 に答える
1

ベイジアン k-meansは、クラスターの数がわからない場合の解決策になる場合があります。Web サイトには関連する論文があり、対応する MATLAB コードも示されています。

于 2011-06-17T14:11:03.213 に答える
0

未知の(統計パラメータモデルなどによる)ML問題の最良の解決策は、データをサンプリングし、サブ問題に最適なパラメータを見つけてから、それらを完全な問題で使用することです。その場合、データの 5% に最適な K を選択します。

于 2011-06-16T06:06:08.283 に答える