アルゴリズムの真のクラスタリングと予測されたクラスタリングが与えられた場合、クラスタリング アルゴリズムの精度を見つける方法は?
Web を検索しましたが、有用な情報源が見つかりませんでした。分類アルゴリズムの精度を計算する方法を知っています。
アルゴリズムの真のクラスタリングと予測されたクラスタリングが与えられた場合、クラスタリング アルゴリズムの精度を見つける方法は?
Web を検索しましたが、有用な情報源が見つかりませんでした。分類アルゴリズムの精度を計算する方法を知っています。
いくつかの方法が存在し、それらのいくつかは、ウィキペディアのページ「クラスター分析」のセクション「外部評価」で説明されています。
ペア カウント ベースのインデックス (F メジャー、ランドなど) が最も人気があるようです。それらは計算が非常に簡単です。実際には、いくつかのセット マッチング メジャーよりも簡単です (最適な 1:1 アライメントを見つけるためのハンガリーのアルゴリズムは にありますがO(n^3)
、すべてのペア カウント メジャーは交差行列上の線形パスで計算できるため、O(n^2)
. (n
はの数です)クラスター。)
ペアカウンティング測定に基づいた新しい視覚的実験を見つけることができます (ただし、私の経験では、実際のデータではそれほど役に立ちません。メジャー) で:
Achtert、Elke、他。「クラスタリングの評価 - メトリックとビジュアル サポート」。データ エンジニアリング (ICDE)、2012 年 IEEE 第 28 回国際会議。IEEE、2012年。
新しいクラスタリングを「既知の」クラスタリングと比較することには大きな問題があることに注意してください。
そうすることで、実際に斬新な解決策を罰することになります。
しかし、クラスター分析を使用する場合は、斬新なソリューションが必要です。すでに持っているラベルだけなら、すでに持っているラベルをそのまま使用できます。実際、良好なクラスタリング結果は、既知のソリューションから逸脱し、データの別のビューを提供します。
もちろん、クラスタリングが監視されている場合は、クラスタリングの品質の分析に ROC 曲線を使用します。
http://en.wikipedia.org/wiki/Receiver_operating_characteristic