1

20 個以上の変数を持つ 80k サイズのデータ​​セットでカーネルを使用sklearn.svrしています。RBF終了パラメータをどのように選択するか疑問に思っていましたtol。C とガンマの特定の組み合わせ (諦める 2 日以上前) では回帰が収束しないように見えるので、質問します。興味深いことに、平均実行時間は約 1 時間で、特定の組み合わせでは 10 分未満で収束します。

このパラメータを設定するための経験則はありますか? おそらく、予測の標準偏差または期待値との関係でしょうか?

4

3 に答える 3

5

マイクの答えは正しいです。グリッド検索パラメーターのサブサンプリングは、おそらくSVR中規模のデータセット サイズでトレーニングするための最良の戦略です。SVR はスケーラブルではないため、完全なデータセットでグリッド検索を行って時間を無駄にしないでください。1000 のランダムなサブサンプルを試し、次に 2000、次に 4000 を試します。毎回 C とガンマの最適値を見つけ、データセットのサイズを 2 倍にするたびにそれらがどのように変化するかを推測してみてください。

また、 Nystroem カーネル近似と SGDRegressor、LinearRegression、LassoCV、ElasticNetCV などの線形リグレッサー モデルを使用して、真の SVR ソリューションを近似することもできます。RidgeCV は、領域内の LinearRegression を改善しない可能性がありn_samples >> n_featuresます。

最後に、 a のモデルの前にaMinMaxScalerまたは aを配置して、入力データをスケーリングすることを忘れないでください。StandardScalerSVRPipeline

モデルも試してみGradientBoostingRegressorます (ただし、SVR とはまったく関係ありません)。

于 2013-07-30T15:45:51.210 に答える