machine-learning - データのサブセットに対する分類子のパフォーマンス

Question

Weka を使用して一連のラベル付き Web ページで分類を実行し、AUC で分類器のパフォーマンスを測定しています。分類に使用されていない別の 6 レベルの因子があり、因子の各レベルでの分類子のパフォーマンスを知りたいです。

データのサブセットで分類子のパフォーマンスをテストするには、どのような手法または手段を使用する必要がありますか?

score 2 · Accepted Answer

これが正確にあなたが求めているものであるかどうかはわかりませんが、多くの場合、クロス検証を使用して単一のデータセットを複数のトレーニング/テストサブセットに分割し、学習パフォーマンスをより適切に評価します。

基本的な考え方（たとえば、10分割交差検定）は次のとおりです。

データをトレーニングセットとテストセットにランダムに分割します
トレーニングセットで分類器をトレーニングする
テストセットでのパフォーマンスを評価する
ランダムなトレーニング/テストの分割を変えて、手順1〜3をさらに9回繰り返します。

分類器の全体的なパフォーマンスは、10個のテストセットすべてでの平均パフォーマンスです。

少し調べてみると、プログラムで、またはWekaUIを介して相互検証を実行する方法の例がいくつか見つかりました。

score 0 · Accepted Answer

Nate Kohlが推奨する手順はすべて正しいものです。もう 1 つの非常に重要な問題は、パフォーマンスを測定する機能です。私の経験では、AUC を最大化すると、分類器にかなりの偏りが生じることがあります。二項分類器にはマシューズ相関係数 (MCC)を使用するか、3 つ以上の可能な値を持つカテゴリ分類器にはCohen のカッパを使用することを好みます

machine-learning - データのサブセットに対する分類子のパフォーマンス

2 に答える 2

Related

Reference