0

クラスタリング手法を評価しようとしています。そのための有効な手段の一つにF1スコアがあることを知りました。私が行ったリンクに従って

F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

基本的にPrecisionとRecallの調和平均。また、精度と再現率が何であるかもわかりました。そしてそれも

真陽性 = 正しく識別された

誤検知 = 誤って識別された

真陰性 = 正しく却下

偽陰性 = 誤って拒否された

しかし、私の問題は、これをクラスタリングと関連付けることができなかったことです。たとえば、次のシナリオがある場合

Training Data = {(lat1,long1),(lat2,long2),(lat3,long3),(lat4,long4),(lat5,long5),(lat6,long6),(lat7,long7)}

そして、私のクラスタリング結果は

Cluster1 = {lat1,long1),(lat2,long2),(lat3,long3)},

Cluster2 = {lat4,long4),(lat5,long5)}

Noise =  {(lat6,long6),(lat7,long7)}

この場合、テストデータで真陽性などを見つけるにはどうすればよいですか? 分類の場合は理解できましたが、この場合は分類がないためわかりませんでした。

アップデート:

私のシナリオでは分類指標を使用できません。私は位置データを使用しているので、形成されたクラスターから見つけられる可能性のある結果は次のとおりです。

Distance between two positions
Midpoint of the cluster

これにより、次の内部評価手段を使用できます

Davies–Bouldin index https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index
Dunn index https://en.wikipedia.org/wiki/Dunn_index
Silhouette coefficient https://en.wikipedia.org/wiki/Silhouette_(clustering)

しかし、真のクラスタリングに向けて、これについてさらに研究を進めたいと考えています。真のクラスタリングとは、手動でクラスタを作成し、さらにクラスタを評価することだと理解しました。どう評価されているのだろう?と思いました。それに関連する記事や論文が見つかりません。

4

1 に答える 1