2

Weka を使用して、一連のデータに対して決定木分類器を実行しています。私は 10 分割の交差検証を使用しており、10 分割のそれぞれの精度を知りたいと考えています。エクスプローラーの [分類] で、テスト データの各予測の長いリストを取得できます。これは、すべての + を手動で合計する必要があることを意味します。

特に大量のデータがある場合、これには長い時間がかかります。同様に、間違いを犯しやすいです。

Experimenter の下で、同じデータに 10 倍の交差検証分類子を設定できます (1 回の繰り返し)。「row」を「folds」に設定し、「column」に移動して「number_incorrect」に設定すると、10 個の折り畳みのうち 6 つしか表示されません。

では、どうすれば 10 回すべてのフォールドの正しい数を取得できますか?また、なぜこれを行っているのでしょうか?

4

2 に答える 2

2

[分析] タブで、次を選択する必要があります。

1) 行:折りたたむ

2) 列: RunFold、および必要な結果を選択する必要があります。

セクション 2 のオプションの 1 つを省略すると、部分的な情報しか表示されません。

于 2014-07-26T10:16:40.833 に答える
0

私の理解では、Weka がこれを行っている方法は、K 分割交差検証 (CV) では、単一分割の個々の精度はそれほど意味がないということです。K-fold CV の全体的なアイデアは、データを K 個のサブセットに単純に分割し、検証のために各フォールドを順番に除外します。次に、検証エラーがK 分割全体の平均として計算されます。これは、学習アルゴリズムのエラーの偏りのない推定値です。

詳細については、以下のリンクを参照してください: https://alliance.seas.upenn.edu/~cis520/wiki/index.php?n=Lectures.Overfitting

于 2012-10-19T06:52:19.587 に答える