0

x が n 次元のベクトルで、y が m 次元のベクトルであるデータセット (x,y) があります。(m=3, n>2) 私の目標は、(x,y) データセットに適合する x の最適な多項式を見つけることです。

x の次元はかなり大きく (現在は 25 です)、すべての可能性 (x1*x3*x5、x1*x4*x6 など) を手動で入力したくありません。Matlab、Mathematica、および R を使用できます。これを行うにはどうすればよいですか?

また、次の問題に関するあなたの提案を聞きたいと思います。結果から最も関連性の高い係数を選択するにはどうすればよいですか? (おそらく x1*x2 は x2*x3 よりも適切です)

ありがとうございました

4

2 に答える 2

4

この質問は、分析プラットフォームに関するものではなく、多変量分析を適切に行う方法に関するものです。そのため、サブジェクト領域の説明を追加する必要があります。また、発生している暗黙の多重テストと、推論統計のインフレを回避するために実行する必要があるペナルティの種類についても適切に考慮する必要があります。結論: Frank Harrell の "Regression Modeling Strategies" を読む必要があります。ここでは、これらの各文が完全な章に展開されています。(また、質問が広すぎるので、クローズするか、stats.stackexchange に移行する必要があると思います。) ゴールデンタイムのコーディングの準備ができていません。

于 2012-06-19T20:45:57.393 に答える
0

DWinの答えに加えて:

多項式に関しては、ファンデルモンド行列の線形回帰で表現し、多変量線形回帰を使用できます。ただし、多くの変量がある場合は、さらに自由度を許可するよりも、モデルを制限する必要があることに気付くでしょう。

また、次の問題についてのあなたの提案を聞くことに興味があります:結果から最も関連性の高い係数をどのように選択できますか?(多分x1*x2はx2*x3よりも関連性があります)

これは、悪名高い難しい問題である変数選択に要約されます。エフロンはそれを未解決の大きな問題の1つとして挙げたと思います...

于 2012-06-19T22:07:59.123 に答える