0

そのため、ユークリッド距離、マンハッタン距離、コサイン距離、チェビシェフ距離など、k-means にさまざまな距離メトリックを使用することを考えています。クラスタリングに関連するこれらの距離メトリックの使用例を知りたいだけです。

4

1 に答える 1

4

簡単な答えは次のとおりです。

すべきではありませ

K-means は実際には距離ベースではありません。

これは、分散の最小化に基づいています。そして分散は、各オブジェクトを 2 乗ユークリッド距離に近いオブジェクトに割り当てることによって最小化されます (2 乗ユークリッドは本質的に分散と同じであるためです!)。また、sqrt 関数は単調なので、最近接ユークリッド距離で計算していると考えることもできます。

任意の他の距離関数をプラグインすると、分散が最小化されなくなり、k-means が収束しなくなる可能性があります。

k-means のもう 1 つのステップは、平均の更新であることに注意してください。ここでも分散を最小限に抑えるために、クラスターの中心を平均に移動するのが最適です。別の距離機能をプラグインすると、これが成り立たなくなる場合があります。ブーム。

ただし、例外があります。明らかに、距離関数によっては平均もうまく機能します。したがって、実際には収束します。

さらに、K-medoid などの亜種も存在します。これは実際には距離を最小化するように設計されており、任意の距離で機能します。平均は必要ありません。代わりに、データ セットの最も中心的なオブジェクトを使用します。これにより、任意の距離の収束が得られます!

更新:これは、他の距離測定が失敗する可能性のある例です。

類似性を測定するために絶対ピアソン相関を使用していると仮定します。次の 2 つの系列は、完全に負の相関があります。つまり、絶対ピアソンで距離が 0 です。

+1 +2 +3 +4 +5
-1 -2 -3 -4 -5

これらのインスタンスの平均を計算すると、平均は0 0 0 0 0であり、ピアソンの類似度は A) 標準偏差が 0 になったため、明確に定義されなくなりました。この定義のギャップを修正したとしても、平均は、この尺度に関して可能な限り最も異なるベクトルになります。

したがって、平均関数が距離を最小化することを証明できる場合にのみ、他の距離で k-means を使用してください。演習として、平均が2 乗ユークリッド距離を最小化することを証明したい場合があります。

于 2013-01-23T17:44:07.247 に答える