クラスタリングアプリケーションで適合率と再現率を計算する方法が本当に混乱しています。
私は次の状況にあります:
2つのセットAとBが与えられます。各要素に一意のキーを使用することで、AとBのどちらの要素が一致するかを判断できます。機能に基づいてこれらの要素をクラスター化したい(もちろん、一意のキーは使用しません)。
クラスタリングを行っていますが、適合率の計算方法と再現率がわかりません。論文「クラスター検索のための拡張パフォーマンスグラフ」(http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf)によると、式は次のとおりです。
p=精度=関連する検索アイテム/取得アイテムおよびr=リコール=関連する検索アイテム/関連アイテム
どの要素がどのカテゴリに分類されるのか、実際にはわかりません。
これまでに行ったことは、クラスター内で一致するペアがいくつあるかを(一意キーを使用して)チェックしたことです。それはすでに精度またはリコールの1つですか?もしそうなら、どちらがそれであり、どのようにもう一方を計算できますか?
更新: http://mtg.upf.edu/files/publications/unsuperf.pdfで、「クラスターの数が決定されていない教師なしクラスタリングの評価のためのF値」というタイトルの別の論文を見つけました。