k-means クラスタリングでは、どのようにプロセスを開始しますか?
k 個の最も遠い点またはランダムな点を選択して、k 個のクラスターを形成し、他の点をクラスターに結合する必要がありますか?
また
単一のポイントを選択し、それに対して他のポイントをチェックします [ユークリッド距離] < THRESHOLD の場合、新しいクラスターを追加または形成しますか?
k-means クラスタリングでは、どのようにプロセスを開始しますか?
k 個の最も遠い点またはランダムな点を選択して、k 個のクラスターを形成し、他の点をクラスターに結合する必要がありますか?
また
単一のポイントを選択し、それに対して他のポイントをチェックします [ユークリッド距離] < THRESHOLD の場合、新しいクラスターを追加または形成しますか?
K-Means アルゴリズムをシードするには、データ セットから K 個のランダムな観測を選択するのが標準です。K-Means は局所最適化の影響を受けるため (たとえば、初期化によっては常に最適な解が見つかるとは限りません)、さまざまな初期化で数回実行し、エラーが最も少ない結果を選択することも標準です。
元の MacQueen k-means は、最初の k 個のオブジェクトを初期構成として使用しました。Forgy/Lloyd はk 個のランダム オブジェクトを使用しているようです。どちらも十分に機能しますが、より巧妙なヒューリスティック (k-means++ を参照) を使用すると、必要な反復回数が少なくなる場合があります。
k-means は距離ベースではないことに注意してください。これにより、クラスター内平方和 (WCSS) が最小化されます。これはたまたま二乗ユークリッド距離を最小化し、したがってユークリッド距離を最小化します。しかし、ユークリッド距離で考えると、最終的には誤った結論を導き出す可能性があります。分散を最小限に抑えることを考えた方がよいでしょう。