最初の重心点がランダムに選択されている場合、まったく同じデータセットに対してほぼ同じ重心点が得られるかどうかを知りたかったのです。
テスト用の kmeans プログラムを書いていますが、それらが一致していないようです。自分のしていることが正しいかどうか知りたかった。
最初の重心点がランダムに選択されている場合、まったく同じデータセットに対してほぼ同じ重心点が得られるかどうかを知りたかったのです。
テスト用の kmeans プログラムを書いていますが、それらが一致していないようです。自分のしていることが正しいかどうか知りたかった。
k-means アルゴリズムでは、重心位置の初期化が必要です。ほとんどのアルゴリズムでは、これらの重心は、Forgy 法やランダム分割などの方法でランダムに初期化されます。つまり、アルゴリズムの繰り返し反復によって、大幅に異なる結果に収束する可能性があります。
k-means は反復的であり、各「重心移動」ステップで、各重心がその構成点からの距離を最小化する位置に移動されることに注意してください。これにより、開始位置に大きく依存します。
このため、通常は k-means を数回実行し、エラーを最小限に抑えるクラスタリングを選択することをお勧めします。
いいえ、保証されません。
4 つのポイントを持つ 2-means の単純なケースを考えてみましょう: (1, 1), (-1, 1), (1, -1), (-1, -1)
(2D 平面内の正方形) の場合、2 つの重心は{(0, 1), (0, -1)}
または{(1, 0), (-1, 0)}
である可能性があり、2 つの非常に異なる結果が得られます。