-1

ミニバッチ勾配降下法を使用したディープ FF ニューラル ネットワークのトレーニング プロセスを考えてみましょう。私が理解している限り、トレーニングの各エポックで、ミニバッチのランダムなセットが異なります。次に、すべてのミニ バッチを反復処理して NN パラメーターの勾配を計算すると、反復ごとにランダムな勾配が得られるため、コスト関数を最小化するモデル パラメーターのランダムな方向が得られます。トレーニング アルゴリズムのハイパーパラメーターを修正し、トレーニング プロセスを何度も開始したとします。その後、モデル パラメーターの変更が異なるため、互いに完全に異なるモデルになってしまうとします。

1) そのようなランダム ベースのトレーニング アルゴリズムを使用する場合は常にそうですか?

2) そうである場合、以前のトレーニングと検証中に見つかった最高のハイパーパラメーターを使用して NN をもう一度トレーニングすると、最高のモデルが再び得られるという保証はどこにありますか?

3) 常に最良のモデルを生成するようなハイパーパラメータを見つけることは可能ですか?

4

1 に答える 1

0

ニューラル ネットワークは最適化問題を解決しています。勾配を正しい方向に計算しているがランダムである限り、データを一般化するという目的を損なうことはありません。いくつかのローカル オプティマでスタックする可能性があります。しかし、Adam、RMSProp、運動量ベースなど、目的を達成できる優れた方法がたくさんあります。

もう 1 つの理由として、ミニバッチと言うと、それらのサンプルを一般化できるサンプルが少なくともいくつかあり、エラー率に変動が生じる可能性がありますが、少なくともローカル ソリューションを提供できます。

さらに、各ランダム サンプリングで、これらのミニバッチには異なる 2 つのサンプルがあり、これは完全な分布を一般化するのに役立ちます。

ハイパーパラメータを選択するには、調整を行い、目に見えないデータの結果を検証する必要があります。これらを選択する簡単な方法はありません。

于 2019-01-12T17:02:33.377 に答える