0

ミニバッチで動作するようにオンライン トレーニングを行うニューラル ネットワークをトレーニングするためのコードを調整しています。重みのミニバッチ勾配 (de/dw) は、ミニバッチのサンプルの勾配の合計ですか? または、シグモイド出力関数のため、非線形関数ですか? それとも、それは合計ですが、それを小さくするために何らかの数で割ったものですか?

明確化:この質問をより具体的に提起し、フルバッチ勾配とオンライン勾配の関係について質問することをお勧めします。したがって、次の段落を参照してください。

シグモイド活性化関数を持つニューロンを使用して、2 次元空間の点を分類しています。アーキテクチャは 2 x 10 x 10 x 1 です。2 つの出力クラスがあります。1 のポイントと 0 のポイントがあります。誤差は (ターゲット - 出力) の 2 乗の半分です。私の質問は、完全なバッチ勾配は各サンプルの勾配の合計に等しいですか (バッチ全体で重みを一定に保つ) ですか?

4

1 に答える 1

3

正確なコスト関数に少し依存しますが、オンライン モードを使用しているため、関数がトレーニング サンプルの意味で加法的であることを意味するため、最も可能性の高い方法 (正確な詳細を知らなくても) は平均を計算することです。グラデーション。もちろん、それらを合計するとまったく同じ結果になりますが、必要な学習率は小さくなります。

于 2014-06-28T09:36:54.260 に答える