cluster-analysis - クラスタリングで適合率と再現率を計算する方法は？

Question

クラスタリングアプリケーションで適合率と再現率を計算する方法が本当に混乱しています。

私は次の状況にあります：

2つのセットAとBが与えられます。各要素に一意のキーを使用することで、AとBのどちらの要素が一致するかを判断できます。機能に基づいてこれらの要素をクラスター化したい（もちろん、一意のキーは使用しません）。

クラスタリングを行っていますが、適合率の計算方法と再現率がわかりません。論文「クラスター検索のための拡張パフォーマンスグラフ」（http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf）によると、式は次のとおりです。

p=精度=関連する検索アイテム/取得アイテムおよびr=リコール=関連する検索アイテム/関連アイテム

どの要素がどのカテゴリに分類されるのか、実際にはわかりません。

これまでに行ったことは、クラスター内で一致するペアがいくつあるかを（一意キーを使用して）チェックしたことです。それはすでに精度またはリコールの1つですか？もしそうなら、どちらがそれであり、どのようにもう一方を計算できますか？

更新： http：//mtg.upf.edu/files/publications/unsuperf.pdfで、「クラスターの数が決定されていない教師なしクラスタリングの評価のためのF値」というタイトルの別の論文を見つけました。

score 8 · Accepted Answer

クラスタリング手法にアクセスする際に行ってきたいくつかの調査で使用している、クラスターの妥当性に関する他のいくつかの尺度があります。クラス（教師ありクラスタリング）でラベル付けされたデータセットがある場合は、上記のように適合率と再現率、または純度とエントロピーを使用できます。

クラスターの純度=最も頻繁なクラスの発生数/クラスターのサイズ（これは高いはずです）

クラスターのエントロピー=クラスターでクラスがどの程度分散しているかの尺度（これは低くする必要があります）

クラスラベル（教師なしクラスタリング）がない場合は、内部および相互の類似性が適切な尺度になります。

単一クラスターのクラスター内類似性=クラスター内のすべてのペアの平均コサイン類似性（これは高いはずです）

単一クラスターのクラスター間類似性=他のすべてのクラスター内のすべてのアイテムと比較した1つのクラスター内のすべてのアイテムの平均コサインシミュレーション（これは低いはずです）

このホワイトペーパーには、これら4つの対策すべてについての適切な説明があります。 http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

教師なしF値との良いリンク、私は今それを調べています。

score 8 · Accepted Answer

ウィキペディアに精度と再現率に関する役立つ記事があることがわかると思います。要するに：

精度 = 真陽性 / (真陽性 + 偽陽性)

再現率 = 真陽性 /( 真陽性 + 偽陰性)

score 2 · Accepted Answer

この問題について私が考えていることは次のとおりです。

セット A と B の 1 つは「正」のセットです。Aが正であるとしましょう

クラスタ内の A の要素について

次に、使用するだけです

精度 = 真陽性 / (真陽性 + 偽陽性)

リコール = 真陽性 /( 真陽性 + 偽陰性) 誰かが言及したとおり

score 1 · Accepted Answer

あなたの定義に問題があると思います。

適合率と再現率は、基本的に2クラスターの問題である分類問題に適しています。「良いアイテム」（=取得されたアイテム）と「悪いアイテム」（=取得されていないアイテム）のようなものにクラスター化した場合、あなたの定義は理にかなっています。

あなたの場合、すべてのアイテムから正しいクラスタリングのパーセンテージを計算しました。これは精度のようなものですが、私が言ったように定義が適用されないため、実際にはそうではありません。

score 1 · Accepted Answer

適合率と再現率の問題は、通常、「真の」ラベルが何であるかをある程度理解している必要があることです。一方、多くの場合 (および説明では)、ラベルはわかりませんが、比較するパーティションはわかっています。に対して。おそらく、調整されたランド指数をお勧めします。

score 1 · Accepted Answer

クラスタリングアルゴリズムを評価する方法については、「Introduction to Information Retrieval」の第 18 章 (脂肪クラスタリング) を参照してください。 http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

本のこのセクションは、適合率や再現率などの指標について説明しているため、役に立つかもしれません: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

score 0 · Accepted Answer

セットの 1 つ、たとえば A をゴールドクラスタリングと見なし、もう 1 つのセット (B) をクラスタリングプロセスの出力と見なす場合、(正確な) 適合率と再現率の値は次のように推定できます。

精度 = (A と B に共通する要素の数)/(B の要素の数)

リコール = (A と B に共通する要素の数)/(A の要素の数)

これらの標準 F 測定値からも推定できます。

7 に答える 7