学校のプロジェクト用に C4.5 アルゴリズムを使用して決定木を作成しようとしています。決定木はHaberman's Survival Data Setのもので、属性情報は以下の通りです。
Attribute Information:
1. Age of patient at time of operation (numerical)
2. Patient's year of operation (year - 1900, numerical)
3. Number of positive axillary nodes detected (numerical)
4. Survival status (class attribute)
1 = the patient survived 5 years or longer
2 = the patient died within 5 year
そして、各リーフが 1 つの個別の結果 (つまり、そのリーフのエントロピーは 0 でなければならない) を持たなければならない決定木を実装する必要がありますが、属性は同じでも結果が異なるインスタンスが 6 つあります。
例えば:
66,58,0,2
66,58,0,1
この種の状況で C4.5 アルゴリズムは何をしますか。どこでも検索しましたが、情報が見つかりませんでした。
ありがとう。