私は論文k-means++: The Advantages of Careful Seedingを読みましたが、提供されているアルゴリズムをよく理解していませんでした。
「D(x) は、データ ポイント x から既に選択した最も近い中心までの最短距離を示します。
1a. 初期中心 c1 を X からランダムに一様に選択します。
1b. 次の中心 ci を選択し、確率 (D(x')^2) / Sum_of(D(x)^2) で ci = x' ∈ X を選択します。
1c。合計 k 個のセンターを選択するまで、ステップ 1b を繰り返します。
2-4. 標準の k-means アルゴリズムと同様に進めます。」
(上記のリンクのアルゴリズムをよく見てください)
特にステップ1b。「ci = x' ∈ X を確率 (D(x')^2) / Sumof(D(x)^2) で選択する」とはどういう意味ですか。最大の比率を持つ要素を選択するということですか? そして、そのような計算をどのように実行して、最適な重心を選択することができますか?