不純物を測定する方法は3つあります。
各方法の違いと適切な使用例は何ですか?
p_i が非常に小さい場合、非常に小さい数値 (ジニ インデックス)で乗算を行うと、丸め誤差が発生する可能性があります。そのため、ログ (エントロピー) を追加することをお勧めします。分類誤差は、定義に従って、単一の最大 p_i を使用してその値を計算するため、総推定値を提供します。
エントロピーとその他の不純物測定の違い、そして実際に機械学習における情報理論的アプローチと他のアプローチの違いは、エントロピーが「情報」の概念を捉えることが数学的に証明されていることです。「情報」の尺度としての意味を正当化する哲学的議論を形式化するエントロピー尺度には、多くの分類定理 (特定の関数または数学的オブジェクトが一連の基準を満たす唯一のオブジェクトであることを証明する定理) があります。
これを、哲学的正当化のためではなく、主に経験的正当化のために選択された他のアプローチ(特に統計的方法)と比較してください。つまり、実験でうまく機能しているようです。それらがうまく機能する理由は、実験時にたまたま成立する可能性のある追加の仮定が含まれているためです。
実際には、これは、エントロピー測定が (A) データに関する仮定がないため、適切に使用された場合に過適合にならないこと、(B) 任意のデータセットに一般化されるため、ランダムよりもパフォーマンスが高い可能性が高いことを意味しますが、(C ) 特定のデータセットのパフォーマンスは、仮定を採用した測定ほど良くない場合があります。
機械学習で使用する手段を決定するとき、多くの場合、長期的な利益と短期的な利益、および保守性に帰着します。エントロピー測定は、(A) と (B) によって長期的に機能することが多く、何か問題が発生した場合は、追跡して理由を説明するのが簡単になります (たとえば、トレーニング データの取得に関するバグ)。(C) による他のアプローチは、短期的な利益をもたらす可能性がありますが、それらが機能しなくなると、それを区別するのが非常に難しくなる可能性があります。たとえば、インフラストラクチャのバグであり、データに真の変化があり、仮定が成り立たなくなります。
モデルが突然機能しなくなった典型的な例は、世界的な金融危機です。銀行員は短期的な利益に対してボーナスを与えられているため、短期的にはうまく機能する統計モデルを作成し、情報理論モデルをほとんど無視しました。
この不純物対策の説明は非常に役立つことがわかりました。ゼロから実装する場合を除いて、ほとんどの既存の実装では、事前に決定された単一の不純物測定値を使用します。また、ジニ係数は不純物の直接的な尺度ではなく、元の定式化ではなく、上記にリストしたものよりもはるかに多いことにも注意してください。
少数とGiniの不純物測定に関する懸念を理解しているかどうかはわかりません...ノードを分割したときにこれがどのように発生するかは想像できません。
私は、これに関する非公式のガイダンスで、「通常の指標の 1 つを使用する場合、大きな違いはありません」から、より具体的な推奨事項に至るまで、さまざまな取り組みを見てきました。実際には、どの尺度が最も効果的かを確実に知る唯一の方法は、すべての候補を試すことです。
とにかく、Salford Systems (CART ベンダー) からの視点は次のとおりです。