問題タブ [cross-validation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2022 参照

r - Cross validation of PCA+lm

I'm a chemist and about an year ago I decided to know something more about chemometrics.

I'm working with this problem that I don't know how to solve:

I performed an experimental design (Doehlert type with 3 factors) recording several analyte concentrations as Y. Then I performed a PCA on Y and I used scores on the first PC (87% of total variance) as new y for a linear regression model with my experimental coded settings as X.

Now I need to perform a leave-one-out cross validation removing each object before perform the PCA on the new "training set", then create the regression model on the scores as I did before, predict the score value for the observation in the "test set" and calculate the error in prediction comparing the predicted score and the score obtained by the projection of the object in the test set in the space of the previous PCA. So repeated n times (with n the number of point of my experimental design). I'd like to know how can I do it with R.

0 投票する
1 に答える
192 参照

machine-learning - 交差検証結果の矛盾

被験者が特定の認知タスクを実行するときに記録された一連のデータセットがあります。データは 16 チャネルとチャネルごとのサンプル ポイントの数で構成され、実行中の認知タスクに従ってこのデータを分類したいと考えています (すべてにラベルが付けられています)。

問題は、大量のデータ (セッションごとに約 60 試行、認知タスクごとに 30 試行) がなく、2 つのセッションがあることです。このデータを分類するために、線形判別分析 (LDA) 分類器をトレーニングしようとしています。分類器は後でリアルタイムで使用され、サンプル数ごとに何らかの形式の出力を提供します。

分類器の汎化誤差を測定するために、5 分割交差検証を使用しました。問題は、この 5 分割クロス検証を何度も実行すると、得られる結果がまったく一定にならないことです。代わりに、全体的な精度に大きなばらつきがあります (たとえば、最初の 5 分割クロス検証では平均精度が 80%、2 回目では 65%、3 回目では平均 72% など)。これは正常ですか?そうでない場合、何が原因である可能性がありますか?

0 投票する
0 に答える
814 参照

r - R gbm: このパッケージではクロス検証はどのように機能しますか?

誰かがこれに関するワークフローを提供できますか? たとえば、バイナリ分類を行っているとします。

アルゴリズムの反復ごとに:

  1. k*N 行をランダムにサンプリングします。ここで、k は bag.fraction、N は nrow(dataset) です。

  2. このトレーニング サンプルを使用して分類器を作成します。ここで分類木を使用するとします。

  3. ターミナル ノード クラス ラベルを予測します。

これは、CV なしでブースティングを行う方法です。3 倍の履歴書を作成したい場合、具体的にどこに適用すればよいですか? ステップ 1 と 2 の間、またはステップ 3 の後?ありがとう!

0 投票する
1 に答える
9610 参照

matlab - matlabで1つを除外したクロス検証を作成する方法は?

私はまだ自分のコードと混同しています。分類のために、matlabで1つを除外したクロス検証を実装しようとしました。だからここに。トレーニングから1つのデータを取り出してテストデータにします。私はすでにmatlabでコードを作成しています。しかし、結果が間違っているので、それが正しいかどうかはわかりません。誰かが私がそれを修正するのを手伝ってくれる?どうもありがとうございます。

これは私のコードです:

0 投票する
2 に答える
2274 参照

r - 不均衡なデータのランダムフォレストによる回帰

ランダムフォレストのrパッケージを使用して、アミノ酸配列に基づいてタンパク質のペア間の距離を予測しています。主な関心は、近い(距離が小さい)タンパク質です。私のトレーニングデータセットは、10kペアのタンパク質とそれらの間の実際の距離で構成されています。ただし、タンパク質のペアが非常に少なく(0.2%未満)、それらの間の距離が小さく、問題は、訓練されたランダムフォレストが、距離が長いタンパク質間の距離を予測する際に非常に正確になり、距離が短いタンパク質には非常に悪いことです。彼ら。トレーニングデータで長距離のタンパク質をダウンサンプリングしようとしましたが、結果はまだ良くありません。私はより近いタンパク質(それらの間の距離が小さいそれらのペア)にもっと興味があります。

0 投票する
1 に答える
3000 参照

r - ROC 曲線プロット: 0.50 の有意性と交差検証

ROC曲線をプロットするためにpROCパッケージを使用する際に2つの問題があります。

A.有意水準または P 値は、ROC 曲線の下の真の (母集団) 面積が実際には 0.5 (帰無仮説: 面積 = 0.5) である場合に、観察されたサンプルの ROC 曲線の下の面積が見つかる確率です。P が小さい場合 (P<0.05)、ROC 曲線下の面積が 0.5 とは有意に異なると結論付けることができ、したがって、臨床検査が 2 つのグループを区別する能力を持っているという証拠があると結論付けることができます。

したがって、ROC 曲線の下の特定の領域が 0.50 と大幅に異なるかどうかを計算したいと思います。次のように pROC パッケージを使用して 2 つの ROC 曲線を比較するコードを見つけましたが、0.5 有意かどうかをテストする方法がわかりません。

B.分類問題に対して k 分割交差検証を行いました。たとえば、5 分割交差検証では 5 つの ROC 曲線が生成されます。次に、pROC パッケージを使用してこれら 5 つの ROC 曲線の平均をプロットする方法 (私がやりたいことはこの Web ページで説明されていますが、Python で行われます:ここにリンクの説明を入力してください)? もう 1 つのことは、この平均 ROC 曲線の信頼区間と最適なしきい値 (以下に実装されたコードのようなもの) を取得できるかということです。

参照:

http://web.expasy.org/pROC/screenshots.html

http://scikit-learn.org/0.13/auto_examples/plot_roc_crossval.html

http://www.talkstats.com/showthread.php/14487-ROC-significance

http://www.medcalc.org/manual/roc-curves.php

0 投票する
3 に答える
7503 参照

r - Rの線形モデルから交差検証済みのr二乗を取得するにはどうすればよいですか?

Rに線形モデルがあります。

サンプル外の r-2 乗の推定値を取得したいと考えています。何らかの形式の k 分割交差検証を使用することを考えていました。

  • R のどのコードが線形モデル フィットを取得し、交差検証された r-square を返しますか?
  • または、R を使用して交差検証済みの r-2 乗を取得する他の方法はありますか?