deep-learning - ニューラルネットワークの密層以降の活性化関数はどのくらい必要ですか?

翻译自：https://stackoverflow.com/questions/60245147 2020-02-16T03:28:33.903

1036 次

私は現在、初めてディープ q ラーニングを使用して複数の再帰型畳み込みニューラルネットワークをトレーニングしています。

入力は 11x11x1 行列で、各ネットワークは次元が 3x3x16、3x3x32、3x3x64、3x3x64 の 4 つの畳み込み層で構成されます。私は stride=1 と padding=1 を使用しています。各 convLayer の後に ReLU アクティベーションが続きます。出力は、128 ユニットのフィードフォワード全結合密層に供給され、その後、同じく 128 ユニットを含む LSTM 層に供給されます。次の 2 つの高密度層は、個別のアドバンテージストリームとバリューストリームを生成します。

そのため、トレーニングは現在数日間実行されており、(関連する論文をいくつか読んだ後) 気付きましたが、(ほとんどの論文のように) 最初の高密度レイヤーの後にアクティベーション関数を追加していませんでした。追加するとネットワークが大幅に改善されるのでしょうか? 私は大学のネットワークをトレーニングしているので、仕事の締め切りがあるため、無制限にトレーニングする時間はありません。ただし、ニューラルネットワークのトレーニングの経験が十分ではないため、何をすべきかを判断できません... 何を提案しますか? 私はすべての答えに感謝しています!

deep-learning - ニューラルネットワークの密層以降の活性化関数はどのくらい必要ですか?

1 に答える 1

Related

Reference