machine-learning - 畳み込みニューラルネットワークでのバッチ正規化

Question

私は畳み込みニューラルネットワークの初心者であり、特徴マップと、特徴を抽出するために画像に対して畳み込みがどのように行われるかについての考えを持っています。CNN でバッチ正規化を適用する方法について詳しく教えていただければ幸いです。

この論文https://arxiv.org/pdf/1502.03167v3.pdfを読み、データに適用されるBNアルゴリズムを理解できましたが、最終的に、CNNに適用する場合はわずかな変更が必要であると述べました。

畳み込みレイヤーの場合、正規化が畳み込みプロパティに従うことをさらに望んでいます。これにより、異なる場所にある同じ特徴マップの異なる要素が同じ方法で正規化されます。これを達成するために、すべての場所でミニバッチ内のすべてのアクティベーションを共同で正規化します。アルグで。1、B をミニバッチの要素と空間位置の両方にわたる特徴マップのすべての値のセットとします。したがって、サイズ m のミニバッチとサイズ p × q の特徴マップの場合、効果を使用します- サイズ m′ = |B| のミニバッチ = m · pq. 活性化ごとではなく、特徴マップごとにパラメーター γ(k) と β(k) のペアを学習します。アルゴリズム 2 も同様に変更されているため、推論中に BN 変換が特定の特徴マップの各アクティベーションに同じ線形変換を適用します。

彼らが「同じ機能マップの異なる要素が異なる場所で同じように正規化されるように」と言うと、私は完全に混乱します

機能マップが何を意味するかを知っており、さまざまな要素がすべての機能マップの重みです。しかし、場所や空間的な場所が何を意味するのか理解できませんでした。

以下の文がまったく理解できませんでした 。「Alg. 1 では、ミニバッチの要素と空間位置の両方にまたがるフィーチャマップのすべての値のセットを B にします」

誰かが冷静に詳しく説明して、もっと簡単な言葉で私を説明してくれたらうれしいです

score 0 · Accepted Answer

最初に、カーネルの深さは前の機能マップのチャネル番号によって決定され、このレイヤーのカーネルの数が次の機能マップ (次のレイヤー) のチャネル番号を決定することを明確にする必要があります。
次に、各カーネル (通常は 3 次元) が次のレイヤーで特徴マップのチャネルを 1 つだけ生成することを明確にする必要があります。
3 番目に、生成されたフィーチャマップの各ポイント (位置に関係なく) が同じカーネルによって生成され、前のレイヤーをスライドするという考えを受け入れるようにする必要があります。したがって、それらはこのカーネルによって生成された分布と見なすことができ、確率変数のサンプルと見なすことができます。次に、それらを平均して平均を取得し、次に分散を取得する必要があります。（厳格ではなく、理解するのに役立つだけです）これは、「異なる場所にある同じ機能マップの異なる要素が同じ方法で正規化されるようにするため」と彼らが言っていることです

machine-learning - 畳み込みニューラル ネットワークでのバッチ正規化

4 に答える 4

Related

Reference

machine-learning - 畳み込みニューラルネットワークでのバッチ正規化