ID3 機械学習アルゴリズムで使用される統計エントロピーの概念を研究しています
学習セット S (決定木を構築するために使用する例のセット) によって例示されるドメインの場合、オブジェクトを分類するために必要な平均情報量は、エントロピー測定値によって与えられます。
だから私は次の式を持っています:
たとえば、次のようになります。
S が 9 つの YES と 5 つの NO の例を含む 14 の例のコレクションである場合、次のようになります。
エントロピー(S) = - (9/14)*Log2(9/14) - (5/14)*Log2(5/14) = 0.940
これは非常に簡単に計算できます。私の問題は、私の本で次のメモも読んだことです。
S のすべてのメンバーが同じクラスに属している場合 (データが完全に分類されている場合)、エントロピーは 0 であることに注意してください。エントロピーの範囲は 0 (「完全に分類」) から 1 (「完全にランダム」) です。
前の例を次のように変更しようとしているため、このアサーションは私を混乱させます。
S が 14 の例のコレクションであり、14 の YES と 0 の NO の例がある場合、次のようになります。
エントロピー(S) = - (14/14)*Log2(14/14) - (0/14)*Log2(0/14) = 0 - 無限大
したがって、この場合、すべてのオブジェクトが同じクラス (YES) に属し、NO クラスに属する例はありません。
したがって、この S セットのエントロピー値は 0 になり、無限大になると予想されます。
私は何が欠けていますか?
TNX
アンドレア