問題タブ [cross-validation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - CART モデルの相互検証
課題では、CART モデルで相互検証を実行するよう求められます。cvFit
関数 fromを使用しようとしましcvTools
たが、奇妙なエラー メッセージが表示されました。最小限の例を次に示します。
私が見ているエラーは次のとおりです。
そしてtraceback()
:
にy
は必須のようですcvFit.default
。しかし:
私は何を間違っていますか?自分でコーディングしなくても、CART ツリーを使用して相互検証を行うことができるパッケージはどれですか? (私はとても怠け者です...)
scikit-learn - sklearn を使用した交差検証のための高度な特徴抽出
1000 サンプルのデータを含むサンプル データセットが与えられた場合、10000 行のデータを取得するためにデータを前処理したいとします。したがって、データの元の各行は 10 個の新しいサンプルにつながります。さらに、モデルをトレーニングするときに、クロス検証も実行できるようにしたいと考えています。私が持っているスコアリング関数は、元のデータを使用してスコアを計算するため、生成されたデータではなく、元のデータでもクロス検証スコアリングが機能するようにします。生成されたデータをトレーナーに供給しているため (RandomForestClassifier を使用しています)、クロス検証に頼って元のサンプルに従ってデータを正しく分割することはできません。
やろうと思ったこと:
- カスタム特徴エクストラクタを作成して特徴を抽出し、分類子にフィードします。
- 特徴抽出器をパイプラインに追加し、たとえば GridSearchCv にフィードします
- 元のデータを操作して、選択したパラメーターのセットを指定してモデルをスコアリングするカスタム スコアラーを実装します。
私が達成しようとしていることのためのより良い方法はありますか?
Kaggleで現在行われているコンテストに関連して質問しています
r - In k-fold-cross validation, do we train algorithm on (k-1) subsets one by one or on combined (k-1) subsets at once?
I mean to say, lets say I have 10 subsets (set1, set2,.....set10
) of a training set. To perform 10 fold CV, according to me I should train my algorithm on rbind(set2,set3.....set9,set10)
and test it on set1
. Then I will train it on rbind( set1,set3,set4,....set10)
and test it on set2
and so on. Am I correct ?
I have a feeling that we train algorithm on set2
, set3
....set10
one by one and test it on set1
. This way we have 9 sets of predictions on set1 and then we can average it out. Which one is the correct way?
Any help would be greatly appreciated.
Thank you.
r - cv.glm R の要素が欠落している問題
R のブート ライブラリの cv.glm 交差検証手順を使用して、ロジスティック回帰のパフォーマンスをテストしています。
私の予測変数のいくつかは要因です。
実行すると、次のエラー メッセージが表示されます。
私は問題を理解していると思います。特定のレベルの因子変数が存在しない観測値のサブセットで回帰モデルをトレーニングしている可能性があります。このモデルが後で予測変数の見えないレベルを含む新しい観測で使用される場合、どのように動作するかわかりません。
これは基本的な CV の問題のように見えるので、ライブラリのドキュメントに何も言及されていないことに驚いています。
ポインタをいただければ幸いです。
r - Rクロスバリデーション
交差検証を行っています。そこで、データを 10 個のフォールドに分割したいと考えました。誰かが次のコードを投稿しています。
しかし、私は何をしているのかよくわかりませんlapply
。誰か初心者に説明してくれませんか?感謝します。
machine-learning - 相互検証 - 1 つのクラス分類
トレーニング時に正のデータのみを取得し、テスト時にのみ負のデータを使用できるように、1 クラスの分類を実行しようとしています。1 クラス SVM または他の 1 クラス メソッドを使用する場合、トレーニング フェーズでは負のデータがないため、相互検証アプローチでパラメーターを推定する際によくある問題があります。肯定的なデータのみを使用してパラメーターを推定することによって発生する可能性があると私が感じる問題は、トレーニング中の「オーバーフィッティング」です。つまり、偽陰性率が最も低いパラメーターだけを気にすると、パラメーターになってしまう可能性があります。 ) 偽陰性はゼロですが、テスト中の偽陽性率は高くなります。
私の質問は、CV を使用したパラメーター推定方法を提案するか、このシナリオを扱っている論文を参照してください。グーグル検索と文献レビューのほとんどは私の問題を解決しませんでした. この問題を単純化するために、多くの研究者はいくつかの外れ値を想定 (または人為的に生成) しますが、私の場合、ポジティブなデータがどのように見えるかしか知らないので、ネガティブな概念については何も言えません。フィードバックをお待ちしております。
r - r における GAM の k 分割交差検証
RでGAMのk倍交差検証を行う方法はありますか?
mgcv
パッケージを使用して GAM を作成しました。
パッケージgamclass
を使用して を使用するCVgam
と、次の出力が得られます。
私が知る限り、これは 10 分割交差検証の有用な出力ではありませんか? またはそれは?
ありがとう
r - Rでleave-one-out交差検証を使用してAUCを取得するには?
100 個のサンプル (行) と 10000 個の独立した機能 (列) を含むマトリックス (x) があります。観測値は、サンプルが良いか悪いかのバイナリです {0,1} (ベクトル y に格納されます)。クロスバリデーションを除外して実行し、各機能の曲線下面積 (AUC) を個別に決定したいと考えています (CAtools パッケージの colAUC のようなもの)。glmnet を使用しようとしましたが、うまくいきませんでした。マニュアルに記載されているように、nfold パラメータを観測数 (100) に等しくなるように設定しようとしました。
そして、私はこれらの警告を受けています:
私が間違っていることはありますか?また、各機能のLOOバランスの取れたAUC値を取得する他の方法またはRパッケージはありますか?
どんな助けでも本当に感謝します。ありがとうございました!
r - Rでpls関数を使用したクロス検証
私は R を初めて使用し、MARS 回帰の相互検証のために (stackoverflow のおかげで) 次のコードを使用しようとしています。コードを実行するとエラーが発生します。
上記の質問に加えて、相互検証の結果をすべて出力する方法はありますか?
誰か助けていただければ幸いです。
r - k分割交差検証 - 予測を自動的に取得する方法は?
これはばかげた質問かもしれませんが、それを行うためのパッケージが見つかりません...必要なものを取得するためにいくつかのコードを書くことができることは知っていますが、それを自動的に行う機能があると便利です!
したがって、基本的には、glm モデルの k 分割交差検証を実行したいと考えています。各検証セットの予測と実際の値も自動的に取得したいと考えています。したがって、10 倍の CV を実行している場合、実際の応答と予測をすべてまとめて 10 個の検証セットを返す関数が必要です。
前もって感謝します!