9

この問題についてグーグルで検索しましたが、このアルゴリズムを簡単かつ詳細に説明しているものが見つかりません。

たとえば、id3 アルゴリズムは枝刈りをまったく使用しないことがわかっているため、連続特性がある場合、予測の成功率は非常に低くなります。

C4.5 では継続的な特性をサポートするために枝刈りを使用していますが、これが唯一の理由ですか?

また、WEKAアプリケーションでは、信頼係数が予測の効率にどのように影響するかを正確に理解できません。信頼係数が小さいほど、アルゴリズムはより多くの剪定を行いますが、剪定と予測の精度との相関関係は何ですか? 剪定すればするほど、予測が良くなるか、悪くなるか?

ありがとう

4

1 に答える 1

17

剪定は、決定木のサイズを縮小する方法です。これにより、トレーニング データの精度が低下しますが、(一般に) 目に見えないデータの精度が向上します。オーバーフィッティングを軽減するために使用され、トレーニング データで完全な精度を達成できますが、学習するモデル (つまり、デシジョン ツリー) は非常に具体的であるため、そのトレーニング データ以外には適用されません。

一般に、プルーニングを増やすと、トレーニング セットの精度が低下します。ただし、WEKAは、精度をより適切に推定するためのさまざまなもの、つまりトレーニング/テストの分割または相互検証を提供しています。たとえば、相互検証を使用すると、学習した決定木をテスト データで十分に正確にするのに十分な剪定が行われる場所のどこかに剪定信頼係数の「スイート スポット」が見つかりますが、テスト データでの精度はあまり犠牲になりません。トレーニングデータ。ただし、このスイート スポットがどこにあるかは、実際の問題によって異なります。確実に判断する唯一の方法は、試してみることです。

于 2012-06-02T22:39:37.460 に答える