http://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/で入手可能なデータを使用して、いくつかの分類方法/ハイパーパラメーターの k 倍 CV を作成しようとしています。 sonar.all-data .
このセットは 208 行で構成され、それぞれに 60 の属性があります。read.table 関数を使用して data.frame に読み込んでいます。
次のステップは、データを k 個のフォールドに分割することです。たとえば、k = 5 とします。最初の試みは、
test <- createFolds(t, k=5)
これには2つの問題がありました。1 つ目は、折り目の長さが互いに隣り合っていないことです。
Length Class Mode
Fold1 29 -none- numeric <br />
Fold2 14 -none- numeric <br />
Fold3 7 -none- numeric <br />
Fold4 5 -none- numeric <br />
Fold5 5 -none- numeric
もう1つは、属性インデックスに従ってデータが明らかに分割されたということですが、データ自体を分割したいと考えています。次を使用して、data.frameを転置することで、次のように考えました。
test <- t(myDataNumericValues)
しかし、createFolds 関数を呼び出すと、次のようになります。
Length Class Mode
Fold1 2496 -none- numeric <br />
Fold2 2496 -none- numeric <br />
Fold3 2495 -none- numeric <br />
Fold4 2496 -none- numeric <br />
Fold5 2497 -none- numeric
長さの問題は解決されましたが、それでも 208 データが適切に分割されません。
私は何ができますか?キャレットパッケージはおそらく最も適切ではないでしょうか?