情報利得の値がマイナスになる可能性はありますか?
3 に答える
IG(Y|X) = H(Y) - H(Y|X) >= 0
、H(Y) >= H(Y|X)
最悪の場合は X と Y が独立しているため、H(Y|X)=H(Y)
別の考え方として、確率変数 X が何らかの値を取ることを観察することで、Y に関する情報が得られないか、何らかの情報が得られる (失うことはない) ということです。
編集
デシジョン ツリーのコンテキストでの情報獲得を明確にしましょう(実際、私は機械学習のバックグラウンドを持っていたので、そもそもこれを念頭に置いていました)。
インスタンスとラベルのセット (離散クラス) が与えられる分類問題を想定します。
ツリーの各ノードでどの属性によって分割するかを選択するという考え方は、クラス属性を可能な限り純粋なインスタンスの 2 つのグループ (つまり、エントロピーが最も低い) に分割する機能を選択することです。
これは、次のことから、情報ゲインが最も高い特徴を選択することと同じです。
InfoGain = entropyBeforeSplit - entropyAfterSplit
ここで、分割後のエントロピーは、各ブランチのエントロピーの合計であり、そのブランチのインスタンス数によって重み付けされます。
現在、分割前よりも純度がさらに悪い (エントロピーが高い) ケースを生成するクラス値の分割の可能性はありません。
二項分類問題の簡単な例を見てみましょう。特定のノードでは、5 つの正のインスタンスと 4 つの負のインスタンス (合計 9) があります。したがって、エントロピー (分割前) は次のとおりです。
H([4,5]) = -4/9*lg(4/9) -5/9*lg(5/9) = 0.99107606
ここで、分割のいくつかのケースを考えてみましょう。最良のシナリオは、現在の属性がインスタンスを完全に分割することです (つまり、1 つの分岐はすべて正で、もう 1 つの分岐はすべて負です)。
[4+,5-]
/ \ H([4,0],[0,5]) = 4/9*( -4/4*lg(4/4) ) + 5/9*( -5/5*lg(5/5) )
/ \ = 0 // zero entropy, perfect split
[4+,0-] [0+,5-]
それから
IG = H([4,5]) - H([4,0],[0,5]) = H([4,5]) // highest possible in this case
2 番目の属性は、作成されたブランチの 1 つがインスタンスを取得しない最悪のケースであると想像してください。むしろ、すべてのインスタンスが他のブランチに移動します (たとえば、属性がインスタンス間で一定であり、役に立たない場合に発生する可能性があります)。
[4+,5-]
/ \ H([4,5],[0,0]) = 9/9 * H([4,5]) + 0
/ \ = H([4,5]) // the entropy as before split
[4+,5-] [0+,0-]
と
IG = H([4,5]) - H([4,5],[0,0]) = 0 // lowest possible in this case
これら 2 つのケースの間のどこかに、次のようなケースがいくつもあります。
[4+,5-]
/ \ H([3,2],[1,3]) = 5/9 * ( -3/5*lg(3/5) -2/5*lg(2/5) )
/ \ + 4/9 * ( -1/4*lg(1/1) -3/4*lg(3/4) )
[3+,2-] [1+,3-]
と
IG = H([4,5]) - H([3,2],[1,3]) = [...] = 0.31331323
したがって、これら 9 つのインスタンスをどのように分割しても、常に情報がプラスになります。これは数学的な証明ではないことを認識しています (そのためには MathOverflow にアクセスしてください!)。実際の例が役立つと思いました。
(注:すべてGoogleによる計算)
確かにそれはできます。
情報利得は、ある状態から別の状態への情報エントロピーの変化です。
IG(Ex, a) = H(Ex) - H(Ex | a)
その状態の変化は、どちらの方向にも進む可能性があります。つまり、正または負の可能性があります。
これは、例で簡単に確認できます。
ディシジョン ツリー アルゴリズムは次のように機能します。特定のノードで、その情報エントロピー (独立変数) を計算します。
次のように考えることができます: 情報エントロピーはカテゴリ変数/離散変数に対するものであり、分散は連続変数に対するものです)。もちろん、分散は標準偏差の 2 乗です。たとえば、さまざまな基準に基づいて価格を予測する場合、データ セットを任意に 2 つのグループにグループ化し、グループ A の価格は (50、60、および 70) であり、グループ B の価格はが (50, 55, 60) である場合、グループ B の分散が最も低くなります。つまり、それらは互いに近接しています。もちろん、分散が負になることはありません(平均からの各ポイントの距離を合計した後、それを二乗するため)が、分散の差は確かに.
これが情報エントロピー/情報利得にどのように関連するかを確認するために、価格を予測するのではなく、サイトへの訪問者が登録ユーザーになるか、プレミアム加入者になるか、またはどちらにもならないかなど、何か他のことを予測しているとします。ここでの独立変数は離散的であり、価格のように連続的ではないため、分散を意味のある方法で計算することはできません。代わりに使用されるのは情報エントロピーです。(ここで分散と IE の密接な類似性を疑う場合は、離散変数と連続変数の両方を処理できるほとんどの決定木アルゴリズムが、IG を使用するのではなく分散を分割基準として使用することを知っておく必要があります。 )
いずれにせよ、特定のノードの情報エントロピーを計算した後、そのノード (ルート ノードにいる場合はデータ セット全体) のデータをすべての変数のすべての値で分割し、分割ごとに、両方のグループの IE を計算し、加重平均 IE を取得します。次に、加重平均 IE が最小になる分割を取り、それをノード IE (明らかに単一のグループです) と比較します。分割の加重平均 IE がノード IEよりも低い場合は、そのノードでデータを分割 (ブランチを形成) し、そうでない場合は停止します。つまり、そのノードはさらに分割できません。底に。
つまり、決定木アルゴリズムの核心は、ノードを分割するかどうかを決定する基準です。つまり、ノードを分割する方法です。その基準は、IGが陽性か陰性かです。