machine-learning - Scikit 決定木の視覚化: エラー値の意味

Question

私は機械学習の初心者で、決定木を試しています。このデシジョンツリーの視覚化http://scikit-learn.org/dev/_images/iris.svgを見て、エラー値が何を意味するのか疑問に思っています。それはジニ指数ですか、情報利得ですか、それとも何ですか?. また、それが直感的に意味することも理解してください。

score 2 · Accepted Answer

この具体的な例では、ノードの「エラー」は、そのノードに到達したすべての例の Gini インデックスです。

一般に、ノードの「誤差」は、具体的な不純物の基準に依存します (たとえば、分類ではジニまたはエントロピー、回帰では平均二乗誤差)。

直感的に、不純性基準 (ジニとエントロピー) の両方を、マルチセットがどれだけ均一であるかの尺度と考えることができます。マルチセットは、ほとんどが 1 つのタイプの要素を含む場合に同種です (これは「純粋」とも呼ばれるため、「不純物基準」と呼ばれます)。この場合、マルチセットの要素は、対応するノードに到達するクラスラベルです。ノードを分割するとき、結果のパーティションが純粋であることが必要です。つまり、クラスが適切に分離されていることを意味します (パーティションには、ほとんどが 1 つのクラスのインスタンスが含まれます)。

およびバイナリ分類の場合、criterion="entropy"1.0 のエラーは、ノード (最も不均一なマルチセット) に同数の正例と負例があることを意味します。

拡張型の on オブジェクトを保持する属性を介して、DecisionTreeClassifierまたはの根底にあるツリーデータ構造にアクセスできます。このオブジェクトは、ツリーを一連の並列 numpy 配列として表します。配列は各ノードの初期エラーを保持します。ノードが分割ノードである場合、2 つのパーティションのエラーの合計を保持します。詳細については、 https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_tree.pyx#L45のクラスドキュメントを参照してください。DecisionTreeRegressortree_sklearn.tree._tree.Treeinit_errorbest_error

machine-learning - Scikit 決定木の視覚化: エラー値の意味

1 に答える 1

Related

Reference