10 個の入力クラス "0" から "9" (手書きの数字) と、A から J のラベルが付いた 10 個の出力クラスターをもつ実際の混同行列の長い例を次に示します。
Confusion matrix for 5620 optdigits:
True 0 - 9 down, clusters A - J across
-----------------------------------------------------
A B C D E F G H I J
-----------------------------------------------------
0: 2 4 1 546 1
1: 71 249 11 1 6 228 5
2: 13 5 64 1 13 1 460
3: 29 2 507 20 5 9
4: 33 483 4 38 5 3 2
5: 1 1 2 58 3 480 13
6: 2 1 2 294 1 1 257
7: 1 5 1 546 6 7
8: 415 15 2 5 3 12 13 87 2
9: 46 72 2 357 35 1 47 2
----------------------------------------------------
580 383 496 1002 307 670 549 557 810 266 estimates in each cluster
y class sizes: [554 571 557 572 568 558 558 566 554 562]
kmeans cluster sizes: [ 580 383 496 1002 307 670 549 557 810 266]
たとえば、クラスタ A には 580 個のデータ ポイントがあり、そのうち 415 個は「8」です。クラスタ B には 383 個のデータ ポイントがあり、そのうち 249 個が「1」です。等々。
問題は、出力クラスがスクランブルされ、並べ替えられていることです。それらは、次の順序で対応しています。カウントは次のとおりです。
A B C D E F G H I J
8 1 4 3 6 7 0 5 2 6
415 249 483 507 294 546 546 480 460 257
「成功率」は 75 % = (415 + 249 + 483 + 507 + 294 + 546 + 546 + 480 + 460 + 257) / 5620 であると言えますが、
これは有用な情報を捨ててしまいます。 「6」と言って、「9」と言うクラスターはありません。
したがって、混同行列の各列の最大数を合計し、合計で割ります。
しかし、ここでは「6」が 2 つあり、「9」はありません。
私は、一般的に合意された方法を知りません (ハンガリーのアルゴリズム
が実際に使用されていることに疑いがあります)。
結論: 情報を捨てないでください。混同行列全体を見てください。
注: このような「成功率」は、新しいデータに対して楽観的です!
データをたとえば 2/3 の「トレーニング セット」と 1/3 の「テスト セット」に分割し、たとえば 2/3 だけで k-means をトレーニングして
から、テスト セットで混乱/成功率を測定するのが通例です。トレーニングセットだけで。
さらに多くのことが言えます。たとえば
、相互検証を参照してください。