1

2種類の例をいくつか見つけました。

単機能

アイテム クラスが 2 つしかないデータが与えられた場合。たとえば青と黄色のボールのみ。つまり、この場合の特徴は色だけです。これは、エントロピーに適用可能な「分割統治」ルールを示す明確な例です。しかし、これは予測や分類の問題にとっては意味がありません。なぜなら、オブジェクトに特徴が 1 つしかなく、その値がわかっている場合、「このボールは黄色」であると判断するためにツリーは必要ないからです。

複数の機能

複数の特徴と予測する特徴 (トレーニング データとして知られている) を含むデータが与えられます。各特徴の最小平均エントロピーに基づいて述語を計算できます。人生により近いですね。アルゴリズムを実装しようとしない限り、それは明らかでした。


そして今、私の心に衝突があります。

既知の機能 (ノードごとに 1 つ) に対して相対的にエントロピーを計算すると、未知の機能がすべての既知の機能に厳密に依存している場合にのみ、ツリーを使用した分類で意味のある結果が得られます。そうしないと、単一のバインドされていない既知の機能がすべての予測を破り、間違った方法で決定を下す可能性があります。しかし、分類時に予測したい特徴の値に対してエントロピーを計算すると、最初の無意味な例に戻ります。このように、ノードに使用する既知の機能に違いはありません...

ツリー構築プロセスについての質問です。

既知の機能についてのみエントロピーを計算し、すべての既知の機能が未知のものにバインドされていると信じるべきですか? または、未知の機能 (トレーニング データで知られている) のエントロピーを計算して、どの機能が結果に影響を与えるかを判断する必要がありますか?

4

1 に答える 1

0

私は数年前に同じ問題を抱えていました (おそらく同様のプログラミングタスクで): 機能の完全なセット、ブランチに関連する機能、またはレベルに関連する機能に対してエントロピーを計算しますか?

このように判明しました: 決定木では、最適な分岐を決定するために異なる分岐間のエントロピーを比較することになります。比較には等しい基本セットが必要です。つまり、2 つのエントロピー値を比較する場合は常に、同じ機能セットに基づいている必要があります。

このソリューションでは、異なるブランチ セット間でエントロピーを比較できないことを認識している限り、問題については、比較するブランチのセットに関連する機能を使用できます。それ以外の場合は、機能セット全体を使用してください。

(免責事項: 上記の解決策は、数年前に約 1 時間の思考につながった問題からの心のプロトコルです。うまくいけば、すべてが正しくなります。)

PS: 車のデータセットに注意してください! ;)

于 2016-02-02T15:34:17.000 に答える