一般的な考え方は次のとおりです。
- トレーニングセットで少しの間ネットワークをトレーニングします。
- 多くの場合、検証セットと呼ばれる2番目のセットでネットワークを評価します。おそらくあなたが選択セットと呼んでいるものです。
- トレーニングセットでネットワークをもう少しトレーニングします。
- 選択セットで新しいネットワークを再度評価します。
- 古いネットワークと新しいネットワークのどちらが優れていましたか?新しいネットワークの方が優れている場合は、トレーニングをまだ活用しているので、3に進みます。新しいネットワークの方が悪い場合は、トレーニングを増やしても問題が発生する可能性があります。以前のバージョンのネットワークを使用してください。
このようにして、トレーニングをいつ停止するかを知ることができます。
これに対する簡単な変更の1つは、これまでに見られた最良のネットワークを常に追跡することです。トレーニングを停止するのは、連続して悪化するトレーニングの試みがいくつか(たとえば、3回)ある場合のみです。
3番目のセットであるテストセットが必要なのは、選択セットが間接的にトレーニングプロセスに関与しているためです。最終評価は、トレーニング中にまったく使用されなかったデータに対して行う必要があります。
簡単な実験にはこの種のことで十分ですが、一般に、システムのパフォーマンスをよりよく理解するために相互検証を使用することをお勧めします。