-1

私は決定木の初心者なので、これらは些細な質問かもしれません。

決定木:

  1. scikit doc ( http://scikit-learn.org/stable/modules/tree.html ) に従って、「predict_proba」関数は各クラスの確率を返します。これは、リーフ内の同じクラスのトレーニング サンプルの割合です。それは正確にはどういう意味ですか。

ランダム フォレスト分類子:

  1. ランダム フォレスト分類器で置換 (ブートストラップ) を使用してサンプルを取得する利点は何ですか。貼り付けよりも優れている点、つまり、データセットのランダムなサブセットを取得できる点 ( http://scikit-learn.org/stable/modules/ensemble.html )
  2. scikit のランダム フォレスト分類子には、" bootstrap_features" というパラメーターがあります (機能は置換の有無にかかわらず描画されます)。機能を置換で描画するとは、正確にはどういう意味ですか。私の理解によると、ツリーを成長させている間、同じ機能を再度使用することはできません。では、機能を置き換えるとは正確にはどういう意味ですか。
  3. ランダム フォレスト分類子から変数の重要性を学習するための背後にある直感は何ですか。
4

1 に答える 1

1

DT

scikit doc ( http://scikit-learn.org/stable/modules/tree.html ) に従って、「predict_proba」関数は各クラスの確率を返します。これは、リーフ内の同じクラスのトレーニング サンプルの割合です。それは正確にはどういう意味ですか。

制限なしでツリーを成長させた場合、それは何の意味もありません。proba を予測すると、常に 100% の出力が得られます。ただし、何らかの方法でツリーのサイズを制限すると (たとえば、max_depth によって)、一部の葉は実際には異なるクラスからのサンプルで終了し、確率を予測します。分類がそのような葉で終了した場合、それぞれに比例する各クラスの確率を返します。このリーフのクラス サンプル。たとえば、クラス 1 からの 3 つのサンプルとクラス 2 からの 2 のサンプルを持つ葉になると、この葉で終わる場合、[0.6 0.4] を出力します (3/(3+2)=3/5=0.6 =クラス 1 を割り当てる確率は 60% で、クラス 2 は 2/(3+2)=2/5=0.4 = 40% です。

RF1

ランダム フォレスト分類器で置換 (ブートストラップ) を使用してサンプルを取得する利点は何ですか。貼り付けよりも優れている点、つまり、データセットのランダムなサブセットを取得できる点 ( http://scikit-learn.org/stable/modules/ensemble.html )

これにより、トレーニング セットのサイズが元のサイズと等しくなるため、単一のツリーに使用するのとほぼ同じ範囲のハイパーパラメーターを使用できます。さらに、これによりトレーニング セットがより多様になります (複数回描画されるいくつかのサンプルの人為的な「ブースティング」があるため)。また、統計的特性が優れているため、推定器の特性 (一般化機能など) の推定値が向上します。

RF2

scikit のランダム フォレスト分類子には、" bootstrap_features" というパラメーターがあります (機能は置換の有無にかかわらず描画されます)。機能を置換で描画するとは、正確にはどういう意味ですか。私の理解によると、ツリーを成長させている間、同じ機能を再度使用することはできません。では、機能を置き換えるとは正確にはどういう意味ですか。

いいえ、ありません

クラス sklearn.ensemble.RandomForestClassifier(n_estimators=10、基準='ジニ'、max_depth=なし、min_samples_split=2、min_samples_leaf=1、min_weight_fraction_leaf=0.0、max_features='auto'、max_leaf_nodes=なし、bootstrap=True、oob_score=False 、n_jobs=1、random_state=なし、verbose=0、warm_start=False、class_weight=なし

多分あなたは一般的なバギングを意味しますか?その後、各機能を複数回使用できます。

RF3

ランダム フォレスト分類子から変数の重要性を学習するための背後にある直感は何ですか。

これは、決定を行うためにツリー間で各フィーチャが使用されるサンプル数の単なる尺度です。したがって、スコアが低いほど、データセットからこのフィーチャを削除した場合の損失が少なくなります。特徴の選択、データ分析へのフィードバックなど、さまざまな方法で使用できます。

ツリーで決定ノードとして使用される特徴の相対的なランク (深さ) を使用して、ターゲット変数の予測可能性に関してその特徴の相対的な重要性を評価できます。ツリーの最上部で使用される特徴は、入力サンプルの大部分の最終的な予測決定に使用されます。したがって、それらが寄与するサンプルの予想される割合は、特徴の相対的な重要性の推定値として使用できます。

于 2015-12-17T17:57:52.473 に答える