7

誰かがFメジャーをまとめて計算するのを手伝ってもらえますか?再現率と適合率を計算する方法は知っていますが、特定のアルゴリズムについて1つのF値を計算する方法がわかりません。

例として、私のアルゴリズムがm個のクラスターを作成するとしますが、同じデータに対してn個のクラスターがあることを知っています(別のベンチマークアルゴリズムによって作成されたもの)。

1つのpdfを見つけましたが、取得した集合値が1より大きいため、役に立ちません。pdfの参照はFメジャーで説明されています。具体的には、著者がFメジャーに基づいて2つのアルゴリズムを比較し、0から1までの値をまとめて取得したいくつかの研究論文を読みました。上記のpdfを注意深く読むと、式はF(C、K)です。 = ∑ | ci | / N * max {F(ci、kj)}
ここで、ciは参照クラスターであり、kjは他のアルゴリズムによって作成されたクラスターです。ここで、iは1からnまで実行され、jは1からmまで実行されます。| c1 |=218としましょう。ここでは、pdf N = m * nに従って、m=12およびn=10とすると、j = 2に対して最大F(c1、kj)が得られます。確かにF(c1、k2)は0から1の間ですが、上記の式で計算された結果の値は1を超える値になります。

4

3 に答える 3

11

fメジャーという用語自体は十分に指定されていません。これは調和平均であり、通常は適合率と再現率です。2つの入力値に異なる重みを付けることができるため、実際には、重み付けされていないバージョンを意味する場合はF1スコアと言う必要があります。しかし、どちらの2つの値が平均化されているかは言うまでもありません(算術平均の意味ではありません!)。

https://en.wikipedia.org/wiki/F1_score

値は0から1の値の範囲でなければならないことに注意してください。そうしないと、以前にエラーが発生します。

クラスター分析では、一般的なアプローチは、F1-Measureをペアの適合率と再現率に適用することです。これは、「ペアカウントf-メジャー」と呼ばれることがよくあります。ただし、他の値でも同じ平均を計算できます。

ペアカウントには、クラスターを直接比較しないという優れた特性があるため、一方の結果にm個のクラスターがあり、もう一方の結果にn個のクラスターがある場合、結果は明確に定義されます。ただし、ペアカウントには厳密なパーティションが必要です。要素がクラスター化されていないか、複数のクラスターに割り当てられていない場合、ペアカウントメジャーは簡単に0〜1の範囲から外れる可能性があります。

これらのメトリックのいくつか(ランド指数などを含む)について説明し、「ペアカウントFメジャー」について簡単に説明します。

于 2012-10-04T11:28:45.607 に答える
8

Darius Pfitzner、Richard Leibbrandt、David Powersによる論文「クラスタリングのペアの類似性測定の特性評価と評価」には、次の例を含む、この主題に関する多くの有用な情報が含まれています。

セットを考えると、

           D = {1、2、3、4、5、6}

とパーティション、

           P = {1、2、3}、{4、5}、{6}、および
           Q = {1、2、4}、{3、5、6}

ここで、Pは私たちのアルゴリズムによって作成されたセットであり、Qは私たちが知っている標準的なアルゴリズムによって作成されたセットです。

           PairsP = {(1、2)、(1、3)、(2、3)、(4、5)}、
           PairsQ = {(1、2)、(1、4)、(2、4)、(3、5)、(3、6)、(5、6)}、および
           PairsD = {(1、2)、(1、3)、(1、4)、(1、5)、(1、6)、(2、3)、(2、4)、
                      (2、5)、(2、6)、(3、4)、(3、5)、(3、6)、(4、5)、(4、6)、(5、6)}

それで、

           a = | PairsP交差点PairsQ| = |(1、2)| = 1
           b = | PairsP-PairsQ | = |(1、3)(2、3)(4、5)| = 3
           c = | PairsQ- PairsP | = |(1、4)(2、4)(3、5)(3、6)(5、6)| = 5
         
     Fメジャー=2a/(2a + b + c)

注: a、b、c、およびdが計算され、bとcの結果が実際に正しく切り替えられていない、364ページの資料にエラーがあります。このスイッチは、他のいくつかの対策の結果を破棄します。明らかに、Fメジャーは影響を受けません。

于 2012-10-16T12:36:57.137 に答える
2

式のN、F(C、K)= ∑ | ci | / N * max {F(ci、kj)}は、|ci|の合計です。全体として、つまり要素の総数です。あなたはおそらくそれをクラスターの数と間違えているので、1より大きい答えを得ています。変更を加えると、答えは1から0の間になります。

于 2013-08-17T17:35:07.070 に答える