1

この畳み込みの計算方法とその出力次元についていくつか質問があります。ストライド、拡張、またはパディングを使用して、nxm カーネルを使用した単純な畳み込みに精通していますが、これは問題ではありませんが、この次元は奇妙に思えます。私が使用しているモデルはonnx-mnistでよく知られているので、それが正しいと思います。

つまり、私のポイントは次のとおりです。

  • 入力の次元が 1x1x28x28 の場合、出力は 1x8x28x28 になりますか?
  • W はカーネルを表します。どうすれば 8x1x5x5 になるのでしょうか? 私の知る限り、最初の次元はバッチ サイズですが、ここでは 1 つの入力で推論を行っているだけです。これは理にかなっていますか?
  • 私はこの畳み込み演算子をゼロから実装しています。これまでのところ、1x1x28x28 と 1x1x5x5 のカーネルで機能しますが、余分な次元は意味がありません。

私がやろうとしている畳み込みが添付されていることを確認してください。希望はあまりonnx具体的ではありません。

モデル

ここに画像の説明を入力

4

1 に答える 1

2

使用しているコードはわかりませんが、カーネルの数は8 だと思います。これは、バッチ サイズ 1 に対してサイズ 5x5 の 8 つの異なるカーネルを入力に適用することを意味します。これにより、出力で 1x8x28x28 が得られます。8 はアクティベーション マップの数 (カーネルごとに 1 つ) を示します。

カーネルの次元 (8x1x5x5) の数値は次のように説明されています。

  • 8:異なるフィルター/カーネルの数 (画像ごとの出力マップの数になります)
  • 1:入力チャンネル数。入力画像がグレースケールではなく RGB の場合、これは 1 ではなく 3 になります。
  • 5:最初の空間次元
  • 5: 2 番目の空間次元
于 2019-11-30T15:12:11.647 に答える