7

mnist データセットの手書き数字画像が 28×28 であることは知っていますが、なぜ LeNet5 の入力は 32×32 なのですか?

4

1 に答える 1

2

あなたの質問は元の論文で回答されています:
畳み込みステップは常に前のレイヤーの特徴マップよりも小さい入力を受け取ります(これは最初のレイヤー-入力-にも当てはまります):

レイヤー C1 は、6 つの特徴マップを持つ畳み込みレイヤーです。各機能マップの各ユニットは、入力の 5x5 近傍に接続されています。特徴マップのサイズは 28x28 で、入力からの接続が境界から外れないようにします。

これは、32x32 の入力で 5x5 の近傍を使用すると、サイズが 28x28 の 6 つのフィーチャ マップが得られることを意味します。これは、画像の境界で使用しないピクセルがあるためです (常にこれらの数値の余りがあります)。

もちろん、最初のレイヤーには例外があります。彼らがまだ 32x32 画像を使用している理由は次のとおりです。

入力は 32x32 ピクセルの画像です。これは、データベース内の最大の文字 (28x28 フィールドの中央に配置された最大 20x20 ピクセル) よりもかなり大きいです。その理由は、脳卒中の終点や角などの潜在的な特有の特徴が、最高レベルの特徴検出器の受容野の中心に現れることが望ましいからです。

于 2015-02-15T12:22:19.473 に答える