python - GridsearchCV を実行するより速い方法はありますか

Question

sklearn で SVC のいくつかのパラメーターを最適化していますが、ここでの最大の問題は、他のパラメーター範囲を試す前に 30 分待たなければならないことです。さらに悪いことに、同じ範囲内で c とガンマの値を増やしたい (より滑らかなサーフェスプロットを作成できるようにするため) ことは事実ですが、時間がかかることはわかっています... 今日実行したときcache_size を 200 から 600 に変更して (それが何をするのかよくわからないまま)、違いがあるかどうかを確認しました。時間は約1分短縮されました。

これは私が助けることができるものですか？それとも、非常に長い間対処する必要がありますか?

clf = svm.SVC(kernel="rbf" , probability = True, cache_size = 600)

gamma_range = [1e-7,1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1e0,1e1]
c_range = [1e-3,1e-2,1e-1,1e0,1e1,1e2,1e3,1e4,1e5]
param_grid = dict(gamma = gamma_range, C = c_range)

grid = GridSearchCV(clf, param_grid, cv= 10, scoring="accuracy")
%time grid.fit(X_norm, y)

戻り値：

Wall time: 32min 59s

GridSearchCV(cv=10, error_score='raise',
   estimator=SVC(C=1.0, cache_size=600, class_weight=None, coef0=0.0, degree=3, gamma=0.0,
kernel='rbf', max_iter=-1, probability=True, random_state=None,
shrinking=True, tol=0.001, verbose=False),
   fit_params={}, iid=True, loss_func=None, n_jobs=1,
   param_grid={'C': [0.001, 0.01, 0.1, 1.0, 10.0, 100.0, 1000.0, 10000.0, 100000.0], 'gamma': [1e-07, 1e-06, 1e-05, 0.0001, 0.001, 0.01, 0.1, 1.0, 10.0]},
   pre_dispatch='2*n_jobs', refit=True, score_func=None,
   scoring='accuracy', verbose=0)

score 8 · Accepted Answer

また、高価な Platt のキャリブレーションを内部で適用することを避けるために、SVC estimator の内部でprincess=False を設定することもできます。(predict_proba を実行できることが重要な場合は、で GridSearchCv を実行しrefit=False、テストセットでモデルの品質に関して最適なパラメーターセットを選択した後、トレーニングセット全体で確率 = True で最適な推定器を再トレーニングします。)

もう 1 つのステップは、RandomizedSearchCVの代わりにを使用GridSearchCVすることです。これにより、ほぼ同時に (n_itersパラメーターによって制御されるように) より良いモデル品質に達することができます。

そして、すでに述べたように、n_jobs=-1

python - GridsearchCV を実行するより速い方法はありますか

3 に答える 3

Related

Reference