machine-learning - 畳み込みニューラルネットワークは勾配消失の影響を受けますか?

Question

畳み込みニューラルネットワークは、レイヤー数が増加する標準のシグモイドニューラルネットワークほど勾配消失問題に悩まされていないことをどこかで読んだと思います。しかし、私は「なぜ」を見つけることができませんでした。

それは本当に問題に悩まされていませんか、それとも私が間違っていて、アクティベーション機能に依存していますか? [私は整流化された線形ユニットを使用してきたので、畳み込みニューラルネットワークのシグモイドユニットをテストしたことはありません]

score 5 · Accepted Answer

畳み込みニューラルネットワーク (標準のシグモイドニューラルネットワークと同様) は、勾配消失問題に悩まされます。勾配消失問題を克服するための最も推奨されるアプローチは次のとおりです。

レイヤーごとの事前トレーニング
活性化関数の選択

コンピュータービジョンの問題に対する最先端のディープニューラルネットワーク ( ImageNetの勝者など) は、ネットワークの最初の数層として畳み込み層を使用していることがわかりますが、それは消失勾配を解くための鍵ではありません。 . 通常、鍵となるのは、ネットワークをレイヤーごとに貪欲にトレーニングすることです。もちろん、畳み込み層を使用すると、他にもいくつかの重要な利点があります。特に入力サイズ (画像のピクセル数) が大きい場合の視覚の問題では、最初のレイヤーに畳み込みレイヤーを使用することをお勧めします。最初のレイヤー (これにより、ネットワークがオーバーフィットしやすくなります)。

ただし、(この論文のように) いくつかのタスクで、Rectified 線形単位を使用すると勾配消失の問題が軽減されることが示されています (従来のシグモイド関数とは対照的に)。

score 0 · Accepted Answer

最近の進歩により、ディープニューラルネットワークにおける勾配消失の影響が軽減されました。貢献する進歩には次のものがあります。

ディープニューラルネットワークのトレーニングに GPU を使用
より良い活性化関数の使用。(この時点では、調整された線形単位 (ReLU) が最適に機能しているようです。)

これらの進歩により、レイヤーごとの事前トレーニングがなくても、ディープニューラルネットワークをトレーニングできます。

ソース: http://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-history-training/

machine-learning - 畳み込みニューラル ネットワークは勾配消失の影響を受けますか?

4 に答える 4

Related

machine-learning - 畳み込みニューラルネットワークは勾配消失の影響を受けますか?