ここで Caffe チュートリアルを行った後: http://caffe.berkeleyvision.org/gathered/examples/mnist.html
ここで定義されているこのチュートリアルで使用する別の (そして効率的な) モデルについて、私は本当に混乱しています: https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_train_test.prototxt
私が理解しているように、Caffe の畳み込み層は、活性化関数を適用せずに、各入力の Wx+b の合計を単純に計算します。アクティベーション関数を追加したい場合は、その畳み込みレイヤーのすぐ下に、Sigmoid、Tanh、または Relu レイヤーなどの別のレイヤーを追加する必要があります。私がインターネットで読んだ論文/チュートリアルはすべて、活性化機能をニューロンユニットに適用しています。
モデルで畳み込みレイヤーとプーリングレイヤーがインターリーブしていることしか確認できないため、大きな疑問符が残ります。誰かが私に説明をしてくれることを願っています。
サイト ノートとして、私にとってもう 1 つの疑問は、このソルバーの max_iter です: https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_solver.prototxt
トレーニング用に 60.000 枚の画像、テスト用に 10.000 枚の画像があります。では、なぜここで max_iter が 10.000 しかないのでしょうか (それでも 99% を超える精度が得られる可能性があります)。Caffe は反復ごとに何をしますか? 実際、正解率が正しい予測/テストサイズの合計であるかどうかはよくわかりません。
非常に短い時間 (> 99% の精度を得るのにわずか 5 分) でこの高い精度を達成できるフレームワークの例を見つけられなかったので、この例には非常に驚いています。したがって、私が誤解したことがあるはずがないと思います。
ありがとう。