1

ID3 機械学習アルゴリズムで使用される統計エントロピーの概念を研究しています

学習セット S (決定木を構築するために使用する例のセット) によって例示されるドメインの場合、オブジェクトを分類するために必要な平均情報量は、エントロピー測定値によって与えられます。

だから私は次の式を持っています:

ここに画像の説明を入力

たとえば、次のようになります。

S が 9 つの YES と 5 つの NO の例を含む 14 の例のコレクションである場合、次のようになります。

エントロピー(S) = - (9/14)*Log2(9/14) - (5/14)*Log2(5/14) = 0.940

これは非常に簡単に計算できます。私の問題は、私の本で次のメモも読んだことです。

S のすべてのメンバーが同じクラスに属している場合 (データが完全に分類されている場合)、エントロピーは 0 であることに注意してください。エントロピーの範囲は 0 (「完全に分類」) から 1 (「完全にランダム」) です。

前の例を次のように変更しようとしているため、このアサーションは私を混乱させます。

S が 14 の例のコレクションであり、14 の YES と 0 の NO の例がある場合、次のようになります。

エントロピー(S) = - (14/14)*Log2(14/14) - (0/14)*Log2(0/14) = 0 - 無限大

したがって、この場合、すべてのオブジェクトが同じクラス (YES) に属し、NO クラスに属する例はありません。

したがって、この S セットのエントロピー値は 0 になり、無限大になると予想されます。

私は何が欠けていますか?

TNX

アンドレア

4

1 に答える 1

1

エントロピーを計算するときは、問題のノードで一意の分類値を反復して合計を行います。値を持つセットのメンバーの数をカウントすることにより、反復ごとにこれを行い、対数式を使​​用します。問題の場合、発生する唯一の分類値は YES です。これは、単一の反復に基づいてエントロピーがゼロであることを意味します。どの例にもその値がないため、NO 値を反復することはできません。

于 2013-06-21T07:03:08.563 に答える