statistics - 有意変数 (数値) のデータマイニング: どこから始めればよいか?

Question

私は、改善しようとしている外国為替市場での取引戦略を持っています。

市場で可能なすべての取引、取引の種類 (売買)、その取引が終了した後の利益/損失、およびさまざまな市場測定値を表す 10 ほどの追加変数を表す巨大なテーブル (10 万行以上) があります。取引開始の時間。

これらの 10 個の変数のいずれかが利益/損失に有意に関連しているかどうかを調べようとしています。

たとえば、変数 X の範囲が 50 から -50 であるとします。買い注文の X の平均値は 25 で、売り注文の場合は -25 です。

最も収益性の高い買い注文の値が X > 25 であり、最も収益性の高い売り注文の値が X < -25 である場合、X と利益の関係は重要であると考えます。

これを良い出発点にしたいと思います。RapidMiner 5誰かが私にそのための具体的な推奨事項を与えることができる場合に備えて、私はインストールしました。

score 16 · Accepted Answer

デシジョンツリーは、おそらく開始するのに最適な場所です。

ツリー自体は、機能の重要度ランキング(またはOP で表現されている重要な変数) の視覚的な要約です。

分類/回帰分析全体を (バイナリツリーの形式で) 視覚的に表現します。これにより、私が知っている他の分析/統計手法と区別されます。
デシジョンツリーアルゴリズムは、データの前処理をほとんど必要とせず、正規化、再スケーリング、離散変数の整数への変換 (例: 男性/女性 => 0/1) を必要としません。カテゴリ (離散) 変数と連続変数の両方を受け入れることができ、多くの実装では不完全なデータ (データマトリックスの一部の行から欠落している値) を処理できます。と
繰り返しになりますが、ツリー自体は機能の重要度ランキング(つまり、重要な変数)の視覚的な要約です。最も重要な変数は
ルートノードであり、2 つの子ノードよりも重要であり、4 つを合わせたものよりも重要です。子供。ここでの「有意性」とは、説明された分散のパーセントを意味します(応答変数、別名「ターゲット変数」または予測しようとしているものに関して)。
1 つの但し書き: デシジョンツリーの目視検査では、同じランクのノード間で変数の有意性を区別することはできません。

以前にそれらを使用したことがない場合は、次のようにデシジョンツリーが機能します。アルゴリズムは、データ内のすべての変数 (列) と各変数のすべての値を調べ、それらの値のそれぞれに基づいてデータを 2 つのサブセットに分割します。これらの分割のうち、アルゴリズムによって実際に選択されるのはどれですか?つまり、分割基準は何ですか? データを最も「浄化」する (つまり、情報利得を最大化する) 特定の変数/値の組み合わせが選択され、データが分割されます (その変数/値の組み合わせは、通常、ノードのラベルとして示されます)。この単純なヒューリスティックは、残りのデータサブセットが純粋になるか、さらに分割しても情報が得られなくなるまで、再帰的に実行されます。

これは、データセット内の変数の「重要性」について何を教えてくれますか? 重要度は、ルートノードへの近さ (つまり、階層レベルまたはランク) によって示されます。

1 つの提案: ディシジョンツリーは通常、カテゴリデータと離散データの両方を問題なく処理します。ただし、私の経験では、応答変数 (他のすべての変数を使用して予測しようとしている変数) が連続的ではなく離散的/カテゴリ的である場合、決定木アルゴリズムのパフォーマンスは常に向上します。あなたのものはおそらく連続的であるように見えますが、その場合は離散化を検討します（そうすることで分析全体が無意味になる場合を除きます）。これを行うには、問題ドメインで意味のあるパラメーター (ビンサイズ、ビン番号、およびビンエッジ) を使用して応答変数値をビンに入れるだけです。たとえば、r/v が 1 からの「連続値」で構成されている場合100 にするには、0 ～ 20、21 ～ 40、41 ～ 60 などの 5 つのビンに賢明にビン分けすることができます。

たとえば、質問から、データ内の 1 つの変数が X で、5 つの値 (10、20、25、50、100) があるとします。また、この変数のデータを 3 番目の値 (25) で分割すると、2 つのほぼ純粋なサブセット (1 つは低値、もう 1 つは高値) になるとします。この純度が、他の値で分割して得られたサブセットよりも高い限り、データはその変数/値のペアで分割されます。

実際、RapidMiner にはデシジョンツリーの実装があり、Web で利用できるチュートリアルがかなりあるようです (たとえば、YouTube から、こことここから)。(注: R/M で決定木モジュールを使用したことはなく、RapidMiner もまったく使用していません。)

私が検討する他の一連のテクニックは、通常、ルーブリックのDimension Reductionの下にグループ化されています。特徴抽出と特徴選択は、おそらく D/R の次によく使われる 2 つの用語です。最も広く使用されているのは、共分散行列の固有ベクトル分解(データ行列から派生) に基づくPCA (主成分分析) です。

この固有ベクトル分解から得られる 1 つの直接的な結果は、各固有ベクトルによって説明されるデータのばらつきの割合です。この結果だけで、データの変動性の 95% など、説明に必要な次元の数を決定できます。

RapidMiner に PCA または機能的に類似した別の次元削減手法がある場合、それがどこにあるのかは明らかではありません。もちろん、RapidMinerにはR 拡張機能があり、RapidMiner 内の R にアクセスできます。R には多くの PCA ライブラリ (パッケージ) があります。以下で言及するものはすべてCRANで入手できます。つまり、そこにある PCA パッケージはすべて、ドキュメントとビネット (コード例) の最小パッケージ要件を満たしています。pcaPP (Projection Pursuit によるロバスト PCA)をお勧めします。

さらに、PCA に関する 2 つの優れた段階的なチュートリアルをお勧めします。1 つ目は、NIST Engineering Statistics Handbookからのものです。2 つ目は、PCA ではなく独立成分分析 (ICA)のチュートリアルですが、ここで言及したのは、これが優れたチュートリアルであり、2 つの手法が同様の目的で使用されているためです。

statistics - 有意変数 (数値) のデータ マイニング: どこから始めればよいか?

1 に答える 1

Related

Reference

statistics - 有意変数 (数値) のデータマイニング: どこから始めればよいか?