cluster-analysis - 分類またはクラスタリングの結果からの ROC 曲線

Question

たとえば、k-means を使用して、1000 個のインスタンスを含む 5 つのクラスのトレーニングデータセットを 5 つのクラスター (センター) にクラスター化したとします。次に、テストデータセットで検証して混同行列を作成しました。これからROC曲線をプロットしたいのですが、どうすればそれを行うことができますか?

score 5 · Accepted Answer

Roc 曲線は、真陽性率と偽陽性率の間のトレードオフを示しています。言い換えると

ROC グラフは、TP 率を Y 軸に、FP 率を X 軸にプロットした 2 次元グラフです。

離散分類器を使用すると、その分類器は ROC 空間で単一のポイントのみを生成します。通常、確率を生成する分類子が必要です。TP と FP のレートが変化するように、分類子のパラメーターを変更します。その後、この点を使用して ROC 曲線を描きます。

k-means を使用するとします。K-means は、クラスターメンバーシップを個別に提供します。ポイントは ClusterA または ClusterE に属します。したがって、k-means から ROC 曲線を出力するのは簡単ではありません。Lee と Fujita は、このためのアルゴリズムを説明しています。あなたは彼らの論文に目を向けるべきです。しかし、アルゴリズムはこのようなものです。

k-means を適用する
テストデータを使用して TP と FP を計算します。
データポイントのメンバーシップを 1 つのクラスターから 2 番目のクラスターに変更します。
テストデータを再度使用して TP と FP を計算します。

ご覧のとおり、ROC 空間でより多くのポイントを取得し、これらのポイントを使用して ROC 曲線を描画します。

cluster-analysis - 分類またはクラスタリングの結果からの ROC 曲線

1 に答える 1

Related

Reference