C4.5 アルゴリズムが数値属性のしきい値を決定する方法を見つけようとしています。私は調査しましたが、理解できません。ほとんどの場所で、次の情報を見つけました。
トレーニング サンプルは、考慮されている属性 Y の値で最初に並べ替えられます。これらの値は有限数しかないため、{v1,v2, …,vm} のように並べ替えて表示します。vi と vi+1 の間にあるしきい値は、属性 Y の値が {v1, v2, …, vi} にあるケースと、値が {vi+1, vi} にあるケースに分割するという同じ効果があります。 +2, …, vm}. したがって、Y の可能な分割は m-1 のみであり、最適な分割を得るには、これらすべてを体系的に調べる必要があります。
通常、各間隔の中間点 (vi +vi+1)/2 を代表的なしきい値として選択します。C4.5 は、中間点自体ではなく、すべての間隔 {vi, vi+1} に対してより小さい値 vi をしきい値として選択します。
Play/Dont Play (値テーブル) の例を調べていますが、晴れた状態の湿度の値が{ 70,85,90,95}。
誰か知っていますか?