3

ID3 アルゴリズムは、「情報利得」測定を使用します。

SplitInfoC4.5 は、情報利得を で割った「利得率」尺度を使用しますがSplitInfo、レコードが異なる結果間で均等に分割される分割では高く、それ以外の場合は低くなります。

私の質問は:

これは、Information Gain が多くの結果を伴う分割に偏っているという問題を解決するのにどのように役立ちますか? 理由がわかりません。SplitInfo結果の数は考慮されず、分割内のレコードの分布のみが考慮されます。

結果の数が少なく (たとえば 2)、レコードがこれら 2 つの結果に均等に分割されている可能性があります。その場合、SplitInfoは高く、Gain Ratio は低く、結果の少ない分割は C4.5 によって選択される可能性が低くなります。

一方、結果の数は少ないかもしれませんが、分布は均一ではありません。その場合、SplitInfoが低く、Gain Ratio が高く、結果の多い分割が選択される可能性が高くなります。

私は何が欠けていますか?

4

1 に答える 1

7

SplitInfo は結果の数さえ考慮せず、分割内のレコードの分布のみを考慮します。

ただし、結果の数考慮されます。(ご指摘のとおり、ディストリビューションに依存している場合でも)。SplitInfoあなたの比較は、同じ(「低い」)数の結果を持つ2つの状況間の比較であるため、結果の数が変化するとどのように変化するかを示すことはできません.

次の 3 つの状況を考えてみましょう。比較を簡単にするために、すべてが均等に分散されています。

  • 均等に分配された 10 の可能な結果

    SplitInfo = -10*(1/10*log2(1/10)) = 3.32

  • 均等分布で 100 の可能な結果

    SplitInfo = -100*(1/100*log2(1/100)) = 6.64

  • 均等な分布で 1000 の可能な結果

    SplitInfo = -1000*(1/1000*log2(1/1000)) = 9.97

したがって、ID3 のようにのみ使用して、3 つの可能な分割シナリオから選択する必要がある場合Information Gain、後者が選択されます。ただし、 を で使用SplitInfoするとGainRatio、選択肢の数が増えると も増加し、減少することは明らかです。SplitInfoGainRatio

そのすべては、分割が均等に分散されているという前提で説明されました。ただし、不均一な分布であっても、上記のことは依然として当てはまります。 SplitInfo可能な結果の数が多いほど高くなります。はい、可能な結果の数を一定に保ち、結果の分布を変えると、SplitInfo多少の分散が発生します...しかし、そうなりInformation Gainます.

于 2012-11-09T05:49:06.500 に答える