decision-tree - 決定木で最適な属性を見つける

Question

私は1つの質問に出くわしました

Color   Flavor  Edibility
Red     Grape      Yes
Red     Cherry     Yes
Green   Grape      Yes
Green   Cherry     No
Blue    Grape      No
Blue    Cherry     No

この質問では、計算せずに分析するだけで、最適な属性 (色またはフレーバーのいずれか) を推測します。

エントロピーなどを計算せずにこれを推測する方法を誰かが説明できますか

score 6 · Accepted Answer

この質問は少し古いことは知っていますが、まだ興味がある場合は、一般的に、短くて幅の広いツリーの方が「良い」でしょう。背の高いツリーのノードに到達するには、追加の決定が必要になるという事実を考慮してください。

実際に確認する必要があるのは、各内部決定ノードでのエントロピーとゲインです。

エントロピーは、特定の変数の不確実性またはランダム性の量です。別の方法について考えてみると、それは特定のノードでのトレーニングサンプルがどの程度均一であるかの尺度です。たとえば、YES と NO (この場合は true または false) の 2 つのクラスを持つ分類器を考えてみましょう。特定の変数または属性、たとえば x にクラス YES のトレーニング例が 3 つと、クラス NO のトレーニング例が 3 つある場合 (合計 6 つ)、エントロピーは 1 になります。これは、両方のクラスの数が等しいためです。変数であり、得ることができる最も「混同された」ものです。同様に、x が特定のクラスの 6 つのトレーニング例すべてを持っている場合 (YES と言う)、エントロピーは 0 になります。これは、この特定の変数が純粋であるため、ディシジョンツリーのリーフノードになるからです。

エントロピーは、次の方法で計算できます。

_{(出典: dms.irb.hr )}

次にゲインを考えます。デシジョンツリーの各レベルで、そのノードに最適なゲインを示す属性を選択することに注意してください。ゲインは、確率変数 x の状態を学習することによって達成されるエントロピーの期待される減少です。Gain は、Kullback-Leibler ダイバージェンスとしても知られています。ゲインは次の方法で計算できます。

_{(出典: dms.irb.hr )}

質問ではゲインもエントロピーも計算しないように求められますが、特定の属性を選択する理由を示すために説明が必要でした。あなたの場合、食べやすさが学習された属性であると仮定します。

フレーバーまたはカラーのいずれかを選択した場合、どちらの場合もエントロピーが 1 [0-1] であることに注意してください。これは、属性に関係なく、「はい」と「いいえ」の可食性を持つトレーニングインスタンスの数が等しいためです。この時点で、ゲインを確認する必要があります。属性「色」でツリーを固定すると、セット S に属する各属性の割合が小さくなるため、エントロピーが少なくなります。たとえば、「赤」と「緑」のリーフノードはすでに純粋であり、それぞれすべて「はい」と「いいえ」であることに注意してください。その時点から、フレーバーという 1 つの属性を使用できます。明らかに、複数残っている場合は、各属性のゲインを計算して、どれが最適かを判断し、それを次の「レイヤー」として使用する必要があります。

また、それを描画してツリーを Color 属性で固定し、ゲインを計算してみてください。答え (純粋なノード) により早く収束することがわかります。

decision-tree - 決定木で最適な属性を見つける

2 に答える 2

Related

Reference