私は畳み込みニューラルネットワークの初心者であり、特徴マップと、特徴を抽出するために画像に対して畳み込みがどのように行われるかについての考えを持っています。CNN でバッチ正規化を適用する方法について詳しく教えていただければ幸いです。
この論文https://arxiv.org/pdf/1502.03167v3.pdfを読み、データに適用されるBNアルゴリズムを理解できましたが、最終的に、CNNに適用する場合はわずかな変更が必要であると述べました。
畳み込みレイヤーの場合、正規化が畳み込みプロパティに従うことをさらに望んでいます。これにより、異なる場所にある同じ特徴マップの異なる要素が同じ方法で正規化されます。これを達成するために、すべての場所でミニバッチ内のすべてのアクティベーションを共同で正規化します。アルグで。1、B をミニバッチの要素と空間位置の両方にわたる特徴マップのすべての値のセットとします。したがって、サイズ m のミニバッチとサイズ p × q の特徴マップの場合、効果を使用します- サイズ m′ = |B| のミニバッチ = m · pq. 活性化ごとではなく、特徴マップごとにパラメーター γ(k) と β(k) のペアを学習します。アルゴリズム 2 も同様に変更されているため、推論中に BN 変換が特定の特徴マップの各アクティベーションに同じ線形変換を適用します。
彼らが「同じ機能マップの異なる要素が異なる場所で同じように正規化されるように」と言うと、私は完全に混乱します
機能マップが何を意味するかを知っており、さまざまな要素がすべての機能マップの重みです。しかし、場所や空間的な場所が何を意味するのか理解できませんでした。
以下の文がまったく理解できませんでした 。「Alg. 1 では、ミニバッチの要素と空間位置の両方にまたがるフィーチャ マップのすべての値のセットを B にします」
誰かが冷静に詳しく説明して、もっと簡単な言葉で私を説明してくれたらうれしいです