2種類の例をいくつか見つけました。
単機能
アイテム クラスが 2 つしかないデータが与えられた場合。たとえば、青と黄色のボールのみ。つまり、この場合の特徴は色だけです。これは、エントロピーに適用可能な「分割統治」ルールを示す明確な例です。しかし、これは予測や分類の問題にとっては意味がありません。なぜなら、オブジェクトに特徴が 1 つしかなく、その値がわかっている場合、「このボールは黄色」であると判断するためにツリーは必要ないからです。
複数の機能
複数の特徴と予測する特徴 (トレーニング データとして知られている) を含むデータが与えられます。各特徴の最小平均エントロピーに基づいて述語を計算できます。人生により近いですね。アルゴリズムを実装しようとしない限り、それは明らかでした。
そして今、私の心に衝突があります。
既知の機能 (ノードごとに 1 つ) に対して相対的にエントロピーを計算すると、未知の機能がすべての既知の機能に厳密に依存している場合にのみ、ツリーを使用した分類で意味のある結果が得られます。そうしないと、単一のバインドされていない既知の機能がすべての予測を破り、間違った方法で決定を下す可能性があります。しかし、分類時に予測したい特徴の値に対してエントロピーを計算すると、最初の無意味な例に戻ります。このように、ノードに使用する既知の機能に違いはありません...
ツリー構築プロセスについての質問です。
既知の機能についてのみエントロピーを計算し、すべての既知の機能が未知のものにバインドされていると信じるべきですか? または、未知の機能 (トレーニング データで知られている) のエントロピーを計算して、どの機能が結果に影響を与えるかを判断する必要がありますか?