cluster-analysis - EM ソフトクラスタリングと K-Means のベンチマーク?

Question

私は 2 つの実装を持っています。1 つは K-Means で、もう 1 つはソフトクラスタリングを行う EM です。しかし、精度の点でそれらを検証する方法がわかりません。つまり、より優れたクラスターを取得することで、どちらがより優れたパフォーマンスを発揮するかということです。私の推測では、EM は K-Means で発生するハード割り当てではなくソフト割り当てを行っているためです。EM の方がパフォーマンスは優れていますが、この比較を行う方法がわかりません...

EM ソフトクラスタリングと K-Means の精度をベンチマークするにはどうすればよいですか? また、合成データに関する提案はありますか?

score 2 · Accepted Answer

ファジークラスタリングを評価すること自体が困難です。どこかで共通インデックスの 1 つのバリエーションを見たことがあると思います。

しかし、まず次の質問に答えてみてください。

あるクラスタリングアルゴリズムが他のアルゴリズムよりも優れているのはどのような場合ですか?

クラスタリングアルゴリズムは説明ツールであると想定されているため、ラベル付けされた合成データのパフォーマンスを本当に判断できるでしょうか? それとも、「現場」に出て、データから何か新しいことを学ぼうとして、品質を測定しませんか?

これは数学の問題ではありません。

EM は、そのあいまいな割り当てのため、k-means よりも局所的最小値に行き詰まる可能性が低くなります。少なくとも理論上は。同時に、収束することはありません。ロイドの k-means は、有限性引数のために (他の距離ではなく、二乗ユークリッドで) 収束する必要があります。同じ議論はファジーアルゴリズムには当てはまりません。

k-means では最適解が得られないシナリオを構築してみて、EM でより良い結果が得られるかどうかを確認してください。

cluster-analysis - EM ソフト クラスタリングと K-Means のベンチマーク?

2 に答える 2

あるクラスタリング アルゴリズムが他のアルゴリズムよりも優れているのはどのような場合ですか?

Related

Reference

cluster-analysis - EM ソフトクラスタリングと K-Means のベンチマーク?

あるクラスタリングアルゴリズムが他のアルゴリズムよりも優れているのはどのような場合ですか?