私は CNN を使用して画像を分類しようとしていますが、私が見る限り、ReLu は各畳み込み層のアクティベーション ユニットとして人気があります。私の理解に基づいて、ReLU はすべての正の画像強度を保持し、負の画像強度を 0 に変換します。私にとって、それは処理ステップのようなものであり、実際には「起動」ステップではありません。では、ここで ReLU を使用する目的は何ですか?
1 に答える
1
まず、非線形性が導入されます。それがなければ、CNN 全体は一連の行列乗算と最大プーリングにすぎません (したがって、複雑な関数を近似して学習することはできません)。しかし、なぜ特に ReLU が人気なのかという質問をされていると思います。頭に浮かぶ理由の 1 つは、tanh
やシグモイドなどの他の活性化関数には勾配飽和の問題があるということです。これは、出力値が最大値に近づくと、勾配が重要でなくなることを意味します (ウィキペディアなどでグラフを見てください)。)、逆伝播時に勾配を殺します。ReLU にはこの問題はありません。さらに、ReLU が負の値に対してゼロを生成するという事実は、ネットワークが生成する中間表現がまばらになる傾向があることを意味します。
于 2017-11-18T20:46:33.023 に答える