ウィキペディアから:
k分割交差検定では、元のサンプルがランダムにk個の等しいサイズのサブサンプルに分割されます。
私は10分割交差検証プロジェクトに取り組んでいます。76個の要素を持つデータセットがあります。それは私が同じサイズのパーティションを持つことができないことを意味します。
残りのデータ(私の例では6つのデータ)のアプローチは何ですか?それらを無視して、データを16要素にし、6パーティションに11要素などを作成しますか?
ウィキペディアから:
k分割交差検定では、元のサンプルがランダムにk個の等しいサイズのサブサンプルに分割されます。
私は10分割交差検証プロジェクトに取り組んでいます。76個の要素を持つデータセットがあります。それは私が同じサイズのパーティションを持つことができないことを意味します。
残りのデータ(私の例では6つのデータ)のアプローチは何ですか?それらを無視して、データを16要素にし、6パーティションに11要素などを作成しますか?
2つの簡単なオプションがあります。本当に10倍の検証を使用したい場合は、7つの要素を持ついくつかの折りと8つの要素を持ついくつかの折りを用意します。それは本当に重要ではありません。または、各フォールドに19個の要素を含む、4つのフォールド検証を使用します。
どちらでも構いませんが、それほど大きな違いは見られないでしょう。正確に等しいフォールドが得られることはまれですが、データセットが小さいため、トレーニング例の数が変わると、フォールド間の分散が大きくなる可能性があります。しかし、私はそれを疑っています。
あなたはそれらを無視しません!
簡単に言うと、6つのデータポイントを10倍にランダムに分散させることができます。
もう1つの方法は、それらを任意の折り目に追加することです。最後に、これらのポイントは、実行されることになっているように、一度テストに合格します。