5

C4.5 アルゴリズムが数値属性のしきい値を決定する方法を見つけようとしています。私は調査しましたが、理解できません。ほとんどの場所で、次の情報を見つけました。

トレーニング サンプルは、考慮されている属性 Y の値で最初に並べ替えられます。これらの値は有限数しかないため、{v1,v2, …,vm} のように並べ替えて表示します。vi と vi+1 の間にあるしきい値は、属性 Y の値が {v1, v2, …, vi} にあるケースと、値が {vi+1, vi} にあるケースに分割するという同じ効果があります。 +2, …, vm}. したがって、Y の可能な分割は m-1 のみであり、最適な分割を得るには、これらすべてを体系的に調べる必要があります。

通常、各間隔の中間点 (vi +vi+1)/2 を代表的なしきい値として選択します。C4.5 は、中間点自体ではなく、すべての間隔 {vi, vi+1} に対してより小さい値 vi をしきい値として選択します。

Play/Dont Play (値テーブル) の例を調べていますが晴れた状態の湿度の値が{ 70,85,90,95}。

誰か知っていますか?

4

2 に答える 2

2

J48については完全にはわかりませんが、C4.5に基づいていると仮定すると、可能なすべての分割のゲインを計算します(つまり、機能の可能な値に基づいて)。分割ごとに情報利得を計算し、情報利得が最も多い分割を選択します。{70,85,90,95} の場合、{70|85,90,95} 対 {70,85|90,95} 対 {70,85,90|95} の情報ゲインを計算し、最良のものを選択してください。

Quinlan の C4.5 本に関する本は、良い出発点です ( https://goo.gl/J2SsPf )。特に 25 ページを参照してください。

于 2016-01-25T04:47:48.417 に答える