ID3 アルゴリズムは、「情報利得」測定を使用します。
SplitInfo
C4.5 は、情報利得を で割った「利得率」尺度を使用しますがSplitInfo
、レコードが異なる結果間で均等に分割される分割では高く、それ以外の場合は低くなります。
私の質問は:
これは、Information Gain が多くの結果を伴う分割に偏っているという問題を解決するのにどのように役立ちますか? 理由がわかりません。SplitInfo
結果の数は考慮されず、分割内のレコードの分布のみが考慮されます。
結果の数が少なく (たとえば 2)、レコードがこれら 2 つの結果に均等に分割されている可能性があります。その場合、SplitInfo
は高く、Gain Ratio は低く、結果の少ない分割は C4.5 によって選択される可能性が低くなります。
一方、結果の数は少ないかもしれませんが、分布は均一ではありません。その場合、SplitInfo
が低く、Gain Ratio が高く、結果の多い分割が選択される可能性が高くなります。
私は何が欠けていますか?