artificial-intelligence - フィードフォワードニューラルネットワークトレーニングの効率的なデータセットサイズ

Question

pybrain実装を使用して、Python でフィードフォワードニューラルネットワークを使用しています。トレーニングには、逆伝播アルゴリズムを使用します。ニューラルネットワークでは、ネットワークを過小訓練/過剰訓練しないようにするために、適切な量のデータが必要であることを知っています。データセットのトレーニングデータの約 1200 の異なるテンプレートを取得できました。
ここで質問があります:
トレーニングに最適なデータ量を計算するにはどうすればよいですか?

データセット内の 500 項目で試してみたところ、収束するのに何時間もかかったので、あまり多くのサイズを試す必要はありません。この最後のサイズでかなり良い結果が得られましたが、最適な量を見つけたいと思います. ニューラルネットワークには、約 7 つの入力、3 つの隠れノード、および 1 つの出力があります。

score 3 · Accepted Answer

トレーニングに最適なデータ量を計算するにはどうすればよいですか?

それは完全にソリューションに依存します。科学と一緒にちょっとしたアートもあります。テリトリーをオーバーフィッティングしているかどうかを知る唯一の方法は、一連の検証データ (トレーニングに使用しないデータ) に対してネットワークを定期的にテストすることです。そのデータセットのパフォーマンスが低下し始めたら、トレーニングがやりすぎた可能性があります。つまり、最後の反復にロールバックします。

この最後のサイズでかなり良い結果が得られましたが、最適な量を見つけたいと思います.

「最適」は必ずしも可能ではありません。それはあなたの定義にも依存します。一般的に求めているのは、与えられた重みのセットが目に見えないデータに対して「うまく」機能するという高い信頼性です。これが検証セットの背後にある考え方です。

score 0 · Accepted Answer

データセットの多様性は、ネットワークに供給するサンプルの量よりもはるかに重要です。

データセットをカスタマイズして、ネットワークに学習させたいデータを含めて強化する必要があります。

このカスタムデータセットを作成したら、問題に完全に依存するため、サンプルの量を試してみる必要があります。

例: 特定の信号のピークを検出するためにニューラルネットワークを構築している場合、ピークを持たない無数の信号サンプルでネットワークをトレーニングしてもまったく役に立ちません。サンプルの数に関係なく、トレーニングデータセットをカスタマイズすることの重要性があります。

score 0 · Accepted Answer

技術的に言えば、一般的なケースで、すべての例が正しいと仮定すると、より多くの例が常に優れています。問題は、限界改善 (回答の質の一次導関数) とは何かということです。

これをテストするには、10 個の例でトレーニングし、品質 (たとえば 95%) をチェックしてから 20 個というように、次のようなテーブルを取得します。

これにより、限界利益を明確に確認し、それに応じて決定を下すことができます。

artificial-intelligence - フィードフォワード ニューラル ネットワーク トレーニングの効率的なデータセット サイズ

3 に答える 3

Related

Reference

artificial-intelligence - フィードフォワードニューラルネットワークトレーニングの効率的なデータセットサイズ