neural-network - 最大プーリング vs. ゼロパディング: 空間情報の損失

Question

畳み込みニューラルネットワークに関しては、通常、さまざまな戦略を推奨する多くの論文があります。畳み込みの前に画像にパディングを追加することが絶対に必要であると人々が言うのを聞いたことがあります。そうしないと、多くの空間情報が失われます。一方、画像のサイズを縮小するために、プーリング (通常は最大プーリング) を喜んで使用します。ここでの考えは、最大プーリングは空間情報を減らしますが、相対的な位置に対する感度も低下させるので、トレードオフですか?

ゼロパディングはより多くの情報を保持するのではなく、空のデータを保持するだけだと他の人が言っているのを聞いたことがあります。これは、ゼロを追加すると、情報の一部が欠落している場合にカーネルからの反応が得られないためです。

エッジに「スクラップ値」を持つ大きなカーネルがあり、活性化のソースがカーネルの小さな領域に集中している場合、ゼロパディングが機能すると想像できますか?

パディングを使用せずにプーリングコントラを使用したダウンサンプリングの効果に関する論文をいくつか読んでみたいと思いますが、それについてはあまり見つけられません。良い推奨事項や考えはありますか？

図: 畳み込みコントラプーリングを使用した空間ダウンサンプリング (Researchgate)

score 0 · Accepted Answer

パディングの追加は「絶対に必要」ではありません。たたみ込みによって縮小されないように、出力のサイズを制御すると便利な場合があります (サイズとカーネルサイズによっては、出力を拡大することもできます)。ゼロパディングが追加する唯一の情報は、カーネルサイズにも依存する、入力の制限内の特徴ピクセルの境界 (または境界に近い) の状態です。（額縁の「パスパルトゥー」と考えることができます）

プーリングは、convnets で非常に重要です。プーリングは、正確には「ダウンサンプリング」または「空間情報の損失」ではありません。完全な空間情報を使用して、プーリングの前にカーネル計算が行われていることを最初に考慮してください。プーリングは次元を減らしますが、以前にカーネルによって学習された情報を (できれば) 保持します。そして、そうすることで、convnets に関する最も興味深いことの 1 つを実現します。入力の変位、回転、または歪みに対する堅牢性。不変性が学習されていれば、たとえ別の場所に現れたり、歪んだりしても、その位置が特定されます。また、規模を拡大して学習し、さまざまな規模の階層パターンを発見することも意味します。そしてもちろん、convnet でも必要ですが、プーリングは層の数が増えるにつれて計算を可能にします。

score 0 · Accepted Answer

私もしばらくの間、この質問に悩まされてきました。また、いくつかの論文がこの同じ問題に言及しているのを見てきました。これは私が見つけた最近の論文です。Recombinator Networks: 粗い特徴から細かい特徴への集約の学習. 私はその論文を完全には読んでいませんが、あなたの質問は気になるようです. 論文を完全に把握したらすぐに、この回答を更新できます。

neural-network - 最大プーリング vs. ゼロ パディング: 空間情報の損失

2 に答える 2

Related

Reference

neural-network - 最大プーリング vs. ゼロパディング: 空間情報の損失