5

私は論文k-means++: The Advantages of Careful Seedingを読みましたが、提供されているアルゴリズムをよく理解していませんでした。

「D(x) は、データ ポイント x から既に選択した最も近い中心までの最短距離を示します。

1a. 初期中心 c1 を X からランダムに一様に選択します。

1b. 次の中心 ci を選択し、確率 (D(x')^2) / Sum_of(D(x)^2) で ci = x' ∈ X を選択します。

1c。合計 k 個のセンターを選択するまで、ステップ 1b を繰り返します。

2-4. 標準の k-means アルゴリズムと同様に進めます。」

(上記のリンクのアルゴリズムをよく見てください)

特にステップ1b。「ci = x' ∈ X を確率 (D(x')^2) / Sumof(D(x)^2) で選択する」とはどういう意味ですか。最大の比率を持つ要素を選択するということですか? そして、そのような計算をどのように実行して、最適な重心を選択することができますか?

4

3 に答える 3