python-2.7 - 非常にランダム化されたツリーと機能の冗長性に基づく機能の重要性

Question

Scikit-learn Extremely Randomized Trees アルゴリズムを使用して、相対的な特徴の重要性に関する情報を取得しています。「冗長な特徴」がどのようにランク付けされるかについて質問があります。

同一 (冗長) で分類にとって重要な 2 つの特徴がある場合、極端にランダム化されたツリーは特徴の冗長性を検出できません。つまり、両方の機能が上位にランクされます。2 つの機能が実際に重複していることを検出する他の方法はありますか?

score 0 · Accepted Answer

おそらく、上位n個の重要な特徴を抽出し、それらのペアワイズスピアマンまたはピアソンの相関を計算して、すべてのペアワイズ特徴相関（特徴の数と二次）を計算することは不可能である可能性があるため、上位の有益な特徴のみの冗長性を検出できます。。

ただし、決定木のノードとして機能の相対的な発生の統計を利用することにより、同じことを行うためのより賢い方法があるかもしれません。

1 に答える 1