デシジョン ツリーは、おそらく開始するのに最適な場所です。
ツリー自体は、機能の重要度ランキング(またはOP で表現されている重要な変数) の視覚的な要約です。
分類/回帰分析全体を (バイナリ ツリーの形式で) 視覚的に表現します。これにより、私が知っている他の分析/統計手法と区別されます。
デシジョン ツリー アルゴリズムは、データの前処理をほとんど必要とせず、正規化、再スケーリング、離散変数の整数への変換 (例: 男性/女性 => 0/1) を必要としません。カテゴリ (離散) 変数と連続変数の両方を受け入れることができ、多くの実装では不完全なデータ (データ マトリックスの一部の行から欠落している値) を処理できます。と
繰り返しになりますが、ツリー自体は機能の重要度ランキング(つまり、重要な変数)の視覚的な要約です。最も重要な変数は
ルート ノードであり、2 つの子ノードよりも重要であり、4 つを合わせたものよりも重要です。子供。ここでの「有意性」とは、説明された分散のパーセントを意味します(応答変数、別名「ターゲット変数」または予測しようとしているものに関して)。
1 つの但し書き: デシジョン ツリーの目視検査では、同じランクのノード間で変数の有意性を区別することはできません。
以前にそれらを使用したことがない場合は、次のようにデシジョン ツリーが機能します。アルゴリズムは、データ内のすべての変数 (列) と各変数のすべての値を調べ、それらの値のそれぞれに基づいてデータを 2 つのサブセットに分割します。これらの分割のうち、アルゴリズムによって実際に選択されるのはどれですか?つまり、分割基準は何ですか? データを最も「浄化」する (つまり、情報利得を最大化する) 特定の変数/値の組み合わせが選択され、データが分割されます (その変数/値の組み合わせは、通常、ノードのラベルとして示されます)。この単純なヒューリスティックは、残りのデータ サブセットが純粋になるか、さらに分割しても情報が得られなくなるまで、再帰的に実行されます。
これは、データセット内の変数の「重要性」について何を教えてくれますか? 重要度は、ルート ノードへの近さ (つまり、階層レベルまたはランク) によって示されます。
1 つの提案: ディシジョン ツリーは通常、カテゴリ データと離散データの両方を問題なく処理します。ただし、私の経験では、応答変数 (他のすべての変数を使用して予測しようとしている変数) が連続的ではなく離散的/カテゴリ的である場合、決定木アルゴリズムのパフォーマンスは常に向上します。あなたのものはおそらく連続的であるように見えますが、その場合は離散化を検討します(そうすることで分析全体が無意味になる場合を除きます)。これを行うには、問題ドメインで意味のあるパラメーター (ビン サイズ、ビン番号、およびビン エッジ) を使用して応答変数値をビンに入れるだけです。たとえば、r/v が 1 からの「連続値」で構成されている場合100 にするには、0 ~ 20、21 ~ 40、41 ~ 60 などの 5 つのビンに賢明にビン分けすることができます。
たとえば、質問から、データ内の 1 つの変数が X で、5 つの値 (10、20、25、50、100) があるとします。また、この変数のデータを 3 番目の値 (25) で分割すると、2 つのほぼ純粋なサブセット (1 つは低値、もう 1 つは高値) になるとします。この純度が、他の値で分割して得られたサブセットよりも高い限り、データはその変数/値のペアで分割されます。
実際、RapidMiner にはデシジョン ツリーの実装があり、Web で利用できるチュートリアルがかなりあるようです (たとえば、YouTube から、こことここから)。(注: R/M で決定木モジュールを使用したことはなく、RapidMiner もまったく使用していません。)
私が検討する他の一連のテクニックは、通常、ルーブリックのDimension Reductionの下にグループ化されています。特徴抽出と特徴選択は、おそらく D/R の次によく使われる 2 つの用語です。最も広く使用されているのは、共分散行列の固有ベクトル分解(データ行列から派生) に基づくPCA (主成分分析) です。
この固有ベクトル分解から得られる 1 つの直接的な結果は、各固有ベクトルによって説明されるデータのばらつきの割合です。この結果だけで、データの変動性の 95% など、説明に必要な次元の数を決定できます。
RapidMiner に PCA または機能的に類似した別の次元削減手法がある場合、それがどこにあるのかは明らかではありません。もちろん、RapidMinerにはR 拡張機能があり、RapidMiner 内の R にアクセスできます。R には多くの PCA ライブラリ (パッケージ) があります。以下で言及するものはすべてCRANで入手できます。つまり、そこにある PCA パッケージはすべて、ドキュメントとビネット (コード例) の最小パッケージ要件を満たしています。pcaPP (Projection Pursuit によるロバスト PCA)をお勧めします。
さらに、PCA に関する 2 つの優れた段階的なチュートリアルをお勧めします。1 つ目は、NIST Engineering Statistics Handbookからのものです。2 つ目は、PCA ではなく独立成分分析 (ICA)のチュートリアルですが、ここで言及したのは、これが優れたチュートリアルであり、2 つの手法が同様の目的で使用されているためです。