問題タブ [cross-validation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
372 参照

r - 適合生存オブジェクトの相互検証?

cv.glm が glm オブジェクトでどのように機能するかはわかりますが、適合生存モデルはどうでしょうか?

たくさんのモデルがあります (Weibull、Gompertz、lognormal など)。交差検証を使用して予測誤差を評価したいと考えています。Rでこれを行うことができるパッケージ/機能はどれですか?

0 投票する
2 に答える
8191 参照

statistics - 機能の選択と交差検証

回帰モデルをトレーニングしたいので、ランダム フォレスト モデルを使用します。ただし、データセットに非常に多くの機能があるため、機能の選択も行う必要があり、すべての機能を使用すると過剰適合するのではないかと心配しています。私のモデルのパフォーマンスを評価するために、私は 5 倍の交差検証も実行します。これらの次の 2 つのアプローチに関する私の質問は正しく、なぜですか?

1- データを 2 つの半分に分割し、前半で機能選択を行い、これらの選択した機能を使用して、残りの半分で 5 倍交差検証 (CV) を実行します (この場合、5 つの CV は選択した同じ機能をまったく使用します)。 )。

2- 次の手順を実行します。

1- データをトレーニング用に 4/5 に分割し、テスト用に 1/5 に分割します 2- このトレーニング データ (完全なデータの 4/5) を 2 つの半分に分割します: a-) 前半でモデルをトレーニングし、使用します特徴選択を行うためのトレーニング済みモデル。b-) トレーニング データセットの後半でモデルをトレーニングするために、最初の部分から選択した機能を使用します (これが最終的なトレーニング済みモデルになります)。3- データの残りの 1/5 でモデルのパフォーマンスをテストします (これはトレーニング フェーズでは使用されません)。トレーニング用に /5、テスト用に 1/5

私の唯一の懸念は、2 番目の手順で 5 つのモデルが作成され、最終モデルの機能がこれら 5 つのモデルの上位機能の結合になることです。特に最終モデルは 5 倍の各モデルとは異なる機能を持っているため、最終モデルの最終的なパフォーマンス (5 CV の各モデルの選択された機能の結合であるため)

0 投票する
1 に答える
128 参照

matlab - matlab での相互検証分類器の表示出力

簡単な質問がありますが、matlab にはあまり詳しくありません。そのため、コードは非常に役立ちます;)。クロスバリデーションで評価したい KNN 分類器があります。私のコードは次のようになります。

私の入力データは、ラベル 10000*1 と training_data 128*10000 です。ここで、プログラムを実行すると、1000*1 Pre_Labels またはその他の出力も得られます。これは、表示されている折り目が1つしかないためだと思います。私が望むのは、すべての折り畳みのすべての出力を、順序付けられた構造で表示することだけです。これを実現するには、コードをどのように変更する必要がありますか?

どうもありがとうございました!!大変助かります

0 投票する
3 に答える
3931 参照

matlab - matlabでデータをランダムではなくkフォールドに分割する方法は?

簡単にするために、1000 個のサンプルがあるとしましょう (それぞれがベクトルです)。

ランダムにではなく、トレーニングとテストのためにデータを分割したいので、たとえば、4 分割のクロス検証が必要な場合は、次のように取得する必要があります

fold1 : 列車 = 1:250; test= 251:1000
fold2 : 列車 = 251:500、テスト = [1:250 ; 501:1000]
fold3 : トレーニング = 501:750、テスト = [1:500; 751:1000]
fold4 : トレーニング = 751:1000、テスト = 1:750

私はCVPARTITIONを知っていますが、知る限り-データをランダムに分割します-これは必要なものではありません。

そのためのコードを書くことができると思いますが、おそらく使用できる関数があると考えました。


(1) データは既にシャッフルされており、実験を簡単に再現できる必要があります。

0 投票する
1 に答える
498 参照

stanford-nlp - スタンフォード NER における相互検証

Stanford NERで相互検証を使用しようとしています。フィーチャー ファクトリには、次の3 つのプロパティが一覧表示されます。

これはクロス検証に使用する必要があると思います。しかし、私はそれらが実際に機能するとは思いません。numFolds を 1 または 10 に設定しても、トレーニングの実行時間はまったく変わりません。そして奇妙なことに、numFoldsToRun を使用すると、次の警告が表示されます。

0 投票する
1 に答える
1255 参照

python-2.7 - scikit-learn PCA には「スコア」メソッドがありません

その記事に基づいてノイズの種類を特定しようとしています。

確率論的 (PCA) および因子分析 (FA) によるモデル選択

私はwin8 64ビットでscikit-learn-0.14.1.win32-py2.7を使用しています。バージョン0.15を参照していることは知っていますが、バージョン0.14のドキュメントでは、スコアメソッドがPCAで使用できると言及されているため、通常はそうすべきだと思います仕事:

sklearn.decomposition.ProbabilisticPCA

問題は、*cross_val_score* に使用する PCA に関係なく、推定 PCA にスコア メソッドがないというタイプ エラー メッセージが常に表示されることです。

*TypeError: スコアリングが指定されていない場合、渡される推定器には 'score' メソッドが必要です。推定器 PCA(copy=True, n_components=None, whiten=False) はそうではありません.*

なぜそれが起こっているのですか?

よろしくお願いします

クリストス

X には 40 個の特徴の 1000 個のサンプルがあります

コードの一部を次に示します。