2

たとえば、k-means を使用して、1000 個のインスタンスを含む 5 つのクラスのトレーニング データセットを 5 つのクラスター (センター) にクラスター化したとします。次に、テスト データセットで検証して混同行列を作成しました。これからROC曲線をプロットしたいのですが、どうすればそれを行うことができますか?

4

1 に答える 1

5

Roc 曲線は、真陽性率と偽陽性率の間のトレードオフを示しています。言い換えると

ROC グラフは、TP 率を Y 軸に、FP 率を X 軸にプロットした 2 次元グラフです

離散分類器を使用すると、その分類器は ROC 空間で単一のポイントのみを生成します。通常、確率を生成する分類子が必要です。TP と FP のレートが変化するように、分類子のパラメーターを変更します。その後、この点を使用して ROC 曲線を描きます。

k-means を使用するとします。K-means は、クラスター メンバーシップを個別に提供します。ポイントは ClusterA または ClusterE に属します。したがって、k-means から ROC 曲線を出力するのは簡単ではありません。Lee と Fujita は、このためのアルゴリズムを説明しています。あなたは彼らの論文に目を向けるべきです。しかし、アルゴリズムはこのようなものです。

  1. k-means を適用する
  2. テストデータを使用して TP と FP を計算します。
  3. データ ポイントのメンバーシップを 1 つのクラスターから 2 番目のクラスターに変更します。
  4. テストデータを再度使用して TP と FP を計算します。

ご覧のとおり、ROC 空間でより多くのポイントを取得し、これらのポイントを使用して ROC 曲線を描画します。

于 2012-03-21T13:59:43.703 に答える