6

Jiawei Han の Data Mining 第 2 版に関する本 (Attribute Selection Measures - pp 297 から 300) では、各属性 (年齢、収入、credit_rating) およびクラス (buys_computer yes または no) によって達成される情報利得を計算する方法が説明されています。この例では、各属性値は離散的です。たとえば、年齢は若年/中年/高齢、収入は高/低/中、信用格付けは公正/優良などです。

非離散データを取る属性に同じ情報ゲインを適用する方法を知りたいです。たとえば、収入属性は、100.68、120.90 などの任意の通貨金額を取ります。1000 人の学生がいる場合、1000 の異なる金額値が存在する可能性があります。

非離散データに対して同じ情報ゲインをどのように適用できますか? チュートリアル/サンプルの例/ビデオの URL は非常に役立ちます。

4

2 に答える 2