コンピュータービジョンに関する私の講義ノートでは、クラスターの標準偏差がわかっていれば、k-meansクラスタリングアルゴリズムのパフォーマンスを向上させることができると述べています。どうして?
私の考えでは、標準偏差を使用して、最初にヒストグラムベースのセグメンテーションを通じてより良い初期推定値を考え出すことができます。どう思いますか?助けてくれてありがとう!
コンピュータービジョンに関する私の講義ノートでは、クラスターの標準偏差がわかっていれば、k-meansクラスタリングアルゴリズムのパフォーマンスを向上させることができると述べています。どうして?
私の考えでは、標準偏差を使用して、最初にヒストグラムベースのセグメンテーションを通じてより良い初期推定値を考え出すことができます。どう思いますか?助けてくれてありがとう!
あなたの講師は、Veenmanらによる2002年の論文を念頭に置いているかもしれません。基本的な考え方は、各クラスターで許可する最大分散を設定することです。データポイントと同じ数のクラスターから始めて、クラスターを次のように「進化」させます。
(この進化は大域的最適化手順として機能し、k-meansでのクラスター平均の初期割り当ての悪影響を防ぎます)
要約すると、分散がわかっている場合は、クラスターがどの程度変化するかがわかっているため、たとえば外れ値を検出する方が簡単です(通常は別々のクラスターに配置する必要があります)。