畳み込みニューラルネットワークは、レイヤー数が増加する標準のシグモイドニューラルネットワークほど勾配消失問題に悩まされていないことをどこかで読んだと思います。しかし、私は「なぜ」を見つけることができませんでした。
それは本当に問題に悩まされていませんか、それとも私が間違っていて、アクティベーション機能に依存していますか? [私は整流化された線形ユニットを使用してきたので、畳み込みニューラル ネットワークのシグモイド ユニットをテストしたことはありません]
畳み込みニューラルネットワークは、レイヤー数が増加する標準のシグモイドニューラルネットワークほど勾配消失問題に悩まされていないことをどこかで読んだと思います。しかし、私は「なぜ」を見つけることができませんでした。
それは本当に問題に悩まされていませんか、それとも私が間違っていて、アクティベーション機能に依存していますか? [私は整流化された線形ユニットを使用してきたので、畳み込みニューラル ネットワークのシグモイド ユニットをテストしたことはありません]
畳み込みニューラル ネットワーク (標準のシグモイド ニューラル ネットワークと同様) は、勾配消失問題に悩まされます。勾配消失問題を克服するための最も推奨されるアプローチは次のとおりです。
コンピューター ビジョンの問題に対する最先端のディープ ニューラル ネットワーク ( ImageNetの勝者など) は、ネットワークの最初の数層として畳み込み層を使用していることがわかりますが、それは消失勾配を解くための鍵ではありません。 . 通常、鍵となるのは、ネットワークをレイヤーごとに貪欲にトレーニングすることです。もちろん、畳み込み層を使用すると、他にもいくつかの重要な利点があります。特に入力サイズ (画像のピクセル数) が大きい場合の視覚の問題では、最初のレイヤーに畳み込みレイヤーを使用することをお勧めします。最初のレイヤー (これにより、ネットワークがオーバーフィットしやすくなります)。
ただし、(この論文のように) いくつかのタスクで、Rectified 線形単位を使用すると勾配消失の問題が軽減されることが示されています (従来のシグモイド関数とは対照的に)。
最近の進歩により、ディープ ニューラル ネットワークにおける勾配消失の影響が軽減されました。貢献する進歩には次のものがあります。
これらの進歩により、レイヤーごとの事前トレーニングがなくても、ディープ ニューラル ネットワークをトレーニングできます。
ソース: http://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-history-training/