ミニバッチで動作するようにオンライン トレーニングを行うニューラル ネットワークをトレーニングするためのコードを調整しています。重みのミニバッチ勾配 (de/dw) は、ミニバッチのサンプルの勾配の合計ですか? または、シグモイド出力関数のため、非線形関数ですか? それとも、それは合計ですが、それを小さくするために何らかの数で割ったものですか?
明確化:この質問をより具体的に提起し、フルバッチ勾配とオンライン勾配の関係について質問することをお勧めします。したがって、次の段落を参照してください。
シグモイド活性化関数を持つニューロンを使用して、2 次元空間の点を分類しています。アーキテクチャは 2 x 10 x 10 x 1 です。2 つの出力クラスがあります。1 のポイントと 0 のポイントがあります。誤差は (ターゲット - 出力) の 2 乗の半分です。私の質問は、完全なバッチ勾配は各サンプルの勾配の合計に等しいですか (バッチ全体で重みを一定に保つ) ですか?