algorithm - K-means++ アルゴリズム

翻译自：https://stackoverflow.com/questions/17479973 2013-07-05T01:38:11.620

1010 次

私は論文k-means++: The Advantages of Careful Seedingを読みましたが、提供されているアルゴリズムをよく理解していませんでした。

「D(x) は、データポイント x から既に選択した最も近い中心までの最短距離を示します。

1a. 初期中心 c1 を X からランダムに一様に選択します。

1b. 次の中心 ci を選択し、確率 (D(x')^2) / Sum_of(D(x)^2) で ci = x' ∈ X を選択します。

1c。合計 k 個のセンターを選択するまで、ステップ 1b を繰り返します。

2-4. 標準の k-means アルゴリズムと同様に進めます。」

（上記のリンクのアルゴリズムをよく見てください）

特にステップ1b。「ci = x' ∈ X を確率 (D(x')^2) / Sumof(D(x)^2) で選択する」とはどういう意味ですか。最大の比率を持つ要素を選択するということですか? そして、そのような計算をどのように実行して、最適な重心を選択することができますか?

3 に答える 3