問題タブ [grid-search]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cross-validation - 交差検証とグリッド検索の違いは何ですか?
簡単に言えば、交差検証とグリッド検索の違いは何ですか? グリッド検索はどのように機能しますか? 最初に相互検証を行い、次にグリッド検索を行う必要がありますか?
r - Naive Bayes の場合、caret パッケージと klaR パッケージの速度の違い
Naive Bayes モデルを実行していますが、klaR
パッケージを直接使用すると非常に高速で、標準のラップトップで計算するのに 1 秒もかかりません。
mod <- NaiveBayes(category ~ ., data=training, na.action = na.omit)
ただし、caret
パッケージのtrain()
インターフェイス (上記の関数の単なるラッパーだと思っていた) を使用すると、非常に長い時間がかかります。
mod <- train(category ~ ., data=training, na.action = na.omit, method="nb")
これは、train
デフォルトでリサンプリングが含まれているためだと思います。含めてみtrControl = trainControl(method = "none")
ましたが、次のエラーが表示されました。
Error in train.default(x, y, weights = w, ...) :
Only one model should be specified in tuneGrid with no resampling
これが発生する理由や、2 つの関数の速度の違いに関する一般的な考えはありますか?
また、速度の違いが数式インターフェイスに関連している可能性はありますか? 私の予測因子のいくつかは、100 レベルを超える因子です。
python - ランダム化されたグリッド検索をより詳細にするにはどうすればよいですか? (停止しているように見えますが、診断できません)
データセットでランダム化されたグリッド検索を行うことを含む、比較的大きなジョブを実行していますが、(小さな n_iter_search で) すでに長い時間がかかります。
私は 64 コアのマシンで実行しており、約 2 時間、最初のフォールドで 2000 のスレッドをアクティブに保ちました。その後、stdout へのレポートを完全に停止しました。前回のレポートは次のとおりです。
[Parallel(n_jobs=-1)]: Done 4 out of 60 | elapsed: 84.7min remaining: 1185.8min
htop で、ほぼすべてのコアが 0% になっていることに気付きました。これは、ランダム フォレストのトレーニングでは発生しません。プログラムからのフィードバックやエラーはありません。htop がなければ、まだトレーニング中であると思います。これは以前にも発生したため、繰り返し発生する問題です。マシンは完全に反応し、プロセスは生きているように見えます.
私はすでに冗長 = 10 を持っています。RandomizedSearchCV 内で何が起こっているのかを診断する方法について何か考えはありますか?
私がやっているグリッド検索:
rfc = RandomForestClassifier(n_jobs=-1)
param_grid = { 'n_estimators': sp_randint(100, 5000), 'max_features': ['auto', None], 'min_samples_split': sp_randint(2, 6) }
n_iter_search = 20
CV_rfc = RandomizedSearchCV(estimator=rfc, param_distributions=param_grid, n_iter = n_iter_search, verbose = 10,n_jobs = -1)
python - sklearn GridSearchCV (スコアリング関数エラー)
グリッド検索の実行中にエラーが発生しました。グリッド検索が実際にどのように機能するかについての誤解が原因である可能性があると思います。
現在、別のスコアリング関数を使用して最適なパラメーターを評価するためにグリッド検索が必要なアプリケーションを実行しています。RandomForestClassifier を使用して、大きな X データセットを 0 と 1 のリストである特性ベクトル Y に適合させています。(完全にバイナリ)。私のスコアリング関数 (MCC) では、予測入力と実際の入力が完全にバイナリである必要があります。ただし、何らかの理由で ValueError: multiclass is not supported が発生し続けます。
私の理解では、グリッド検索はデータセットに対して交差検証を行い、交差検証に基づく予測入力を考え出し、特性化ベクトルと予測を関数に挿入します。私の特性ベクトルは完全にバイナリであるため、予測ベクトルもバイナリである必要があり、スコアを評価する際に問題は発生しません。(グリッド検索を使用せずに) 単一の定義済みパラメーターを使用してランダム フォレストを実行すると、予測データと特性ベクトルを MCC スコアリング関数に挿入すると、問題なく実行されます。そのため、グリッド検索を実行するとエラーが発生する方法について少し迷っています。
データのスナップショット:
コード:
エラー:
python - Sklearn GridSearchCV、class_weight が不明な理由で機能しない :(
始めようとしてclass_weight
います。残りのコードが機能することはわかっていclass_weight
ますが、エラーが発生するのは次のとおりです。
これが私のコードです
誰かが私が犯している間違いを見つけますか?