私は Conv Nets について多くのことを読んだり、Julia の Mocha.jl パッケージ (Caffe によく似ていますが、Julia REPL で操作できます) を使って遊んだりしています。
Conv ネットでは、畳み込みレイヤーの後に「機能マップ」レイヤーが続きます。私が疑問に思っているのは、ネットワークが特定の問題を解決するために必要な機能マップの数をどのように決定するのでしょうか? これには科学がありますか、それともより芸術的ですか?分類を行おうとしている場合、少なくとも最後のレイヤーには、機能マップの数 == クラスの数が必要であることがわかります (ネットワークの最上部に完全に接続された MLP がない限り)。
私の場合、画像内のすべてのピクセルの値を考え出すほど分類を行っているわけではありません (これは、クラスが 0 から 255 までの分類と見なすことができると思います)。
編集: コメントで指摘されているように、出力が 0 から 255 (この場合はグレースケール) の範囲にある回帰問題を解決しようとしています。それでも、問題は残ります: 特定の畳み込み層で使用する特徴マップの数をどのように決定するのでしょうか? これは、回帰問題と分類問題で異なりますか?