21

クラスタリングアルゴリズムを評価するコードを書いていますが、あらゆる種類の評価方法で、 class のメンバーであり cluster の要素であるデータポイントの数がwhereのm*nようなマトリックスからの基本データが必要であることがわかりました。A = {aij}aijcikj

しかし、 Introduction to Data Mining (Pang-Ning Tan et al.) には、このタイプの行列が 2 つあるようです。1 つは混同行列、もう 1 つは分割表です。両者の違いがよくわかりません。使用したいマトリックスを最もよく表しているのはどれですか?

4

2 に答える 2

29

ウィキペディアの定義:

人工知能の分野では、混同行列は、通常、教師あり学習で使用される視覚化ツールです (教師なし学習では、通常、マッチング行列と呼ばれます)。行列の各列は予測されたクラスのインスタンスを表し、各行は実際のクラスのインスタンスを表します。

混同行列は明確である必要があります。基本的に、実際の結果が予測結果と一致する数を示します。たとえば、この混同マトリックスを参照してください

                 predicted class
                        c1  -  c2
  Actual class   c1     15  -   3
                ___________________
                 c2     0   -   2

それは次のように述べています。

  1. 列 1、行 1 は、分類子が 15 項目が classc1に属すると予測し、実際には 15 項目がclass に属していることを意味しc1ます (これは正しい予測です)。

  2. 2 列目の行 1 は、分類器が 3 つの項目が classc2に属すると予測したが、実際には class に属していることをc1示しています (これは間違った予測です)。

  3. 列 1 行 2 は、実際にクラスに属しているアイテムのどれも、クラスに属しc2ていると予測されていないことを意味しますc1(これは間違った予測です)。

  4. 列 2 行 2 は、クラスに属する 2 つの項目がクラスc2に属すると予測されたことを示していc2ます (これは正しい予測です)。

ここで、あなたの本 (第 4 章、4.2) の精度とエラー率の式を参照してください。混同行列とは何かを明確に理解できるはずです。これは、既知の結果を持つデータを使用して分類器の精度をテストするために使用されます。K-Fold メソッド (本にも記載されています) は、あなたの本にも記載されている分類器の精度を計算する方法の 1 つです。

さて、分割表の場合: ウィキペディアの定義

統計では、分割表 (クロス集計またはクロス集計とも呼ばれます) は、変数の (多変量) 度数分布を表示するマトリックス形式の表の一種です。2 つ以上のカテゴリ変数間の関係を記録および分析するためによく使用されます。

データ マイニングでは、トランザクションや販売分析のショッピング カートのように、読み取りに一緒に表示される項目を示すために分割表が使用されます。例(これはあなたが言及した本の例です):

       Coffee  !coffee
tea    150       50      200
!tea   650       150     800
       800       200    1000   

1000 の回答 (コーヒーと紅茶、またはその両方、またはどちらかが好きかに関する回答、調査の結果) で次のことがわかります。

  1. 150人がお茶とコーヒーの両方が好き
  2. お茶は好きだけどコーヒーは嫌いな人 50人
  3. 650人がお茶は好きではないがコーヒーは好き
  4. 150人はお茶もコーヒーも好きじゃない

分割表は、基本的に関連ルールを評価するために、関連ルールのサポートと信頼度を見つけるために使用されます (第 6 章の 6.7.1 を参照)。

違いは、混同行列を使用して分類子のパフォーマンスを評価し、分類に関する予測を行う際に分類子がどれだけ正確かを示し、分割表を使用して関連規則を評価することです。

答えを読んだ後、少しググって (本を読んでいる間は常にググってください)、本に書かれていることを読み、いくつかの例を見て、本に書かれているいくつかの練習問題を解くことを忘れないでください。それらの両方について明確な概念が必要であり、特定の状況で何を使用するか、およびその理由も必要です。

お役に立てれば。

于 2011-10-01T05:07:50.603 に答える
1

つまり、分割表はデータを記述するために使用されます。混同行列は、他の人が指摘したように、2 つの仮説を比較するときによく使用されます。予測対実際の分類/分類を 2 つの仮説として考えることができます。グラウンド トゥルースは null であり、モデル出力は代替です。

于 2019-02-12T11:54:51.327 に答える