13

コンピュータービジョンに関する私の講義ノートでは、クラスターの標準偏差がわかっていれば、k-meansクラスタリングアルゴリズムのパフォーマンスを向上させることができると述べています。どうして?

私の考えでは、標準偏差を使用して、最初にヒストグラムベースのセグメンテーションを通じてより良い初期推定値を考え出すことができます。どう思いますか?助けてくれてありがとう!

4

1 に答える 1

16

あなたの講師は、Veenmanらによる2002年の論文を念頭に置いているかもしれません。基本的な考え方は、各クラスターで許可する最大分散を設定することです。データポイントと同じ数のクラスターから始めて、クラスターを次のように「進化」させます。

  • 結果のクラスターの分散がしきい値を下回っている場合は、隣接するクラスターをマージします
  • クラスターの分散がしきい値を超えている場合に「遠い」要素を分離する
  • または、二乗誤差の合計が減少する場合は、隣接するクラスター間でいくつかの要素を移動します

(この進化は大域的最適化手順として機能し、k-meansでのクラスター平均の初期割り当ての悪影響を防ぎます)

要約すると、分散がわかっている場合は、クラスターがどの程度変化するかがわかっているため、たとえば外れ値を検出する方が簡単です(通常は別々のクラスターに配置する必要があります)。

于 2011-01-10T15:31:33.513 に答える