cluster-analysis - K はクラスタリングの初期化を意味します

Question

k-means クラスタリングでは、どのようにプロセスを開始しますか?

k 個の最も遠い点またはランダムな点を選択して、k 個のクラスターを形成し、他の点をクラスターに結合する必要がありますか?

また

単一のポイントを選択し、それに対して他のポイントをチェックします [ユークリッド距離] < THRESHOLD の場合、新しいクラスターを追加または形成しますか?

score 1 · Accepted Answer

K-Means アルゴリズムをシードするには、データセットから K 個のランダムな観測を選択するのが標準です。K-Means は局所最適化の影響を受けるため (たとえば、初期化によっては常に最適な解が見つかるとは限りません)、さまざまな初期化で数回実行し、エラーが最も少ない結果を選択することも標準です。

score 0 · Accepted Answer

元の MacQueen k-means は、最初の k 個のオブジェクトを初期構成として使用しました。Forgy/Lloyd はk 個のランダムオブジェクトを使用しているようです。どちらも十分に機能しますが、より巧妙なヒューリスティック (k-means++ を参照) を使用すると、必要な反復回数が少なくなる場合があります。

k-means は距離ベースではないことに注意してください。これにより、クラスター内平方和 (WCSS) が最小化されます。これはたまたま二乗ユークリッド距離を最小化し、したがってユークリッド距離を最小化します。しかし、ユークリッド距離で考えると、最終的には誤った結論を導き出す可能性があります。分散を最小限に抑えることを考えた方がよいでしょう。

cluster-analysis - K はクラスタリングの初期化を意味します

2 に答える 2

Related

Reference