R のキャレット ライブラリの混乱マトリックス関数を使用して、2 つのクラス データに対する (glmnet ライブラリのエラスティックネット、kernlib のガウス プロセッサ、ランダムフォレスト) などのいくつかのメソッドのパフォーマンスを評価しています。
いくつかのメソッドについて時々見ることができます、私は得ています
警告メッセージ: 混同Matrix.default(pred, Truth) : 参照とデータのレベルが同じ順序ではありません。一致するようにデータをリファクタリングします。
パフォーマンスは、たとえば 65% です。ただし、「真実」に基づいて、予測 (上記の例では pred) のレベルを再ラベル付け (順序を変更) すると、パフォーマンスは 25% になります。
以下のおもちゃデータを構築しました。
pred = c("a", "a", "a", "b")
pred = as.factor(pred)
levels(pred) = rev(levels(pred)) % given this line, I can either get 25% or 75%.
truth = c("a", "a", "b", "b")
truth = as.factor(truth)
confusionMatrix(pred, truth)
2クラスのデータなので、直感的に理解できます。しかし、私は自分に有利なようにそうするのだろうか。つまり、パフォーマンスが 25% の場合 (単純に 75% として受け入れます)。