0

私は 2 つの実装を持っています。1 つは K-Means で、もう 1 つはソフト クラスタリングを行う EM です。しかし、精度の点でそれらを検証する方法がわかりません。つまり、より優れたクラスターを取得することで、どちらがより優れたパフォーマンスを発揮するかということです。私の推測では、EM は K-Means で発生するハード割り当てではなくソフト割り当てを行っているためです。EM の方がパフォーマンスは優れていますが、この比較を行う方法がわかりません...

EM ソフト クラスタリングと K-Means の精度をベンチマークするにはどうすればよいですか? また、合成データに関する提案はありますか?

4

2 に答える 2

2

ファジー クラスタリングを評価すること自体が困難です。どこかで共通インデックスの 1 つのバリエーションを見たことがあると思います。

しかし、まず次の質問に答えてみてください。

あるクラスタリング アルゴリズムが他のアルゴリズムよりも優れているのはどのような場合ですか?

クラスタリング アルゴリズムは説明ツールであると想定されているため、ラベル付けされた合成データのパフォーマンスを本当に判断できるでしょうか? それとも、「現場」に出て、データから何か新しいことを学ぼうとして、品質を測定しませんか?

これは数学の問題ではありません。

EM は、そのあいまいな割り当てのため、k-means よりも局所的最小値に行き詰まる可能性が低くなります。少なくとも理論上は。同時に、収束することはありません。ロイドの k-means は、有限性引数のために (他の距離ではなく、二乗ユークリッドで) 収束する必要があります。同じ議論はファジーアルゴリズムには当てはまりません。

k-means では最適解が得られないシナリオを構築してみて、EM でより良い結果が得られるかどうかを確認してください。

于 2014-07-21T22:29:47.693 に答える