machine-learning - 決定木のエントロピー計算対象

Question

2種類の例をいくつか見つけました。

単機能

アイテムクラスが 2 つしかないデータが与えられた場合。たとえば、青と黄色のボールのみ。つまり、この場合の特徴は色だけです。これは、エントロピーに適用可能な「分割統治」ルールを示す明確な例です。しかし、これは予測や分類の問題にとっては意味がありません。なぜなら、オブジェクトに特徴が 1 つしかなく、その値がわかっている場合、「このボールは黄色」であると判断するためにツリーは必要ないからです。

複数の機能

複数の特徴と予測する特徴 (トレーニングデータとして知られている) を含むデータが与えられます。各特徴の最小平均エントロピーに基づいて述語を計算できます。人生により近いですね。アルゴリズムを実装しようとしない限り、それは明らかでした。

そして今、私の心に衝突があります。

既知の機能 (ノードごとに 1 つ) に対して相対的にエントロピーを計算すると、未知の機能がすべての既知の機能に厳密に依存している場合にのみ、ツリーを使用した分類で意味のある結果が得られます。そうしないと、単一のバインドされていない既知の機能がすべての予測を破り、間違った方法で決定を下す可能性があります。しかし、分類時に予測したい特徴の値に対してエントロピーを計算すると、最初の無意味な例に戻ります。このように、ノードに使用する既知の機能に違いはありません...

ツリー構築プロセスについての質問です。

既知の機能についてのみエントロピーを計算し、すべての既知の機能が未知のものにバインドされていると信じるべきですか? または、未知の機能 (トレーニングデータで知られている) のエントロピーを計算して、どの機能が結果に影響を与えるかを判断する必要がありますか?

score 0 · Accepted Answer

私は数年前に同じ問題を抱えていました (おそらく同様のプログラミングタスクで): 機能の完全なセット、ブランチに関連する機能、またはレベルに関連する機能に対してエントロピーを計算しますか?

このように判明しました: 決定木では、最適な分岐を決定するために異なる分岐間のエントロピーを比較することになります。比較には等しい基本セットが必要です。つまり、2 つのエントロピー値を比較する場合は常に、同じ機能セットに基づいている必要があります。

このソリューションでは、異なるブランチセット間でエントロピーを比較できないことを認識している限り、問題については、比較するブランチのセットに関連する機能を使用できます。それ以外の場合は、機能セット全体を使用してください。

(免責事項: 上記の解決策は、数年前に約 1 時間の思考につながった問題からの心のプロトコルです。うまくいけば、すべてが正しくなります。)

PS: 車のデータセットに注意してください! ;)

machine-learning - 決定木のエントロピー計算対象

単機能

複数の機能

1 に答える 1

Related

XPATHを使用する要素?

Reference