3

トレーニングセットに例が少なすぎる場合に、ID3を使用して決定木ビルドを整理する方法。

私はそれをトレーニング、検証、テストセットに分けることができないので、それは問題外です。

使用される可能性のある統計的手法などはありますか?

4

1 に答える 1

4

はい、データ量が少ない場合は、クロスバリデーションを使用してデータセットをトレーニングおよび整理できます。アイデアはかなり単純です。データをNセットに分割し、そのうちのN-1個でツリーをトレーニングします。剪定テストセットとして使用する最後のセット。次に、Nセットの別のセットを選択して除外し、同じことを行います。すべてのセットを除外するまで、これを繰り返します。つまり、N本の木を構築したことになります。これらのN個のツリーを使用してツリーの最適なサイズを計算し、計算を使用してデータの完全なセットをトレーニングして、そのツリーを剪定します。ここで効果的に説明できるよりも複雑ですが、ここでは相互検証をID3に適応させる方法についての記事を紹介します。

デシジョンツリークロス検証

交差検定の適切なセグメンテーションについて多くの研究が行われ、N=10が与えられた追加の処理時間に対して最良の結果をもたらすことがわかりました。相互検証により、計算時間が大幅に増加します(N倍)が、データ量が少ない場合は、サンプル数が少ない場合に克服できます。また、データが少ないため、相互検証を使用しても計算上はそれほど悪くありません。

于 2012-06-16T03:51:32.047 に答える