0

ウィキペディアから:

k分割交差検定では、元のサンプルがランダムにk個の等しいサイズのサブサンプルに分割されます。

私は10分割交差検証プロジェクトに取り組んでいます。76個の要素を持つデータセットがあります。それは私が同じサイズのパーティションを持つことができないことを意味します。

残りのデータ(私の例では6つのデータ)のアプローチは何ですか?それらを無視して、データを16要素にし、6パーティションに11要素などを作成しますか?

4

2 に答える 2

0

2つの簡単なオプションがあります。本当に10倍の検証を使用したい場合は、7つの要素を持ついくつかの折りと8つの要素を持ついくつかの折りを用意します。それは本当に重要ではありません。または、各フォールドに19個の要素を含む、4つのフォールド検証を使用します。

どちらでも構いませんが、それほど大きな違いは見られないでしょう。正確に等しいフォールドが得られることはまれですが、データセットが小さいため、トレーニング例の数が変わると、フォールド間の分散が大きくなる可能性があります。しかし、私はそれを疑っています。

于 2012-11-19T09:53:51.843 に答える
0

あなたはそれらを無視しません!

簡単に言うと、6つのデータポイントを10倍にランダムに分散させることができます。

もう1つの方法は、それらを任意の折り目に追加することです。最後に、これらのポイントは、実行されることになっているように、一度テストに合格します。

于 2012-11-19T10:08:42.597 に答える