私は現在、初めてディープ q ラーニングを使用して複数の再帰型畳み込みニューラル ネットワークをトレーニングしています。
入力は 11x11x1 行列で、各ネットワークは次元が 3x3x16、3x3x32、3x3x64、3x3x64 の 4 つの畳み込み層で構成されます。私は stride=1 と padding=1 を使用しています。各 convLayer の後に ReLU アクティベーションが続きます。出力は、128 ユニットのフィードフォワード全結合密層に供給され、その後、同じく 128 ユニットを含む LSTM 層に供給されます。次の 2 つの高密度層は、個別のアドバンテージ ストリームとバリュー ストリームを生成します。
そのため、トレーニングは現在数日間実行されており、(関連する論文をいくつか読んだ後) 気付きましたが、(ほとんどの論文のように) 最初の高密度レイヤーの後にアクティベーション関数を追加していませんでした。追加するとネットワークが大幅に改善されるのでしょうか? 私は大学のネットワークをトレーニングしているので、仕事の締め切りがあるため、無制限にトレーニングする時間はありません。ただし、ニューラル ネットワークのトレーニングの経験が十分ではないため、何をすべきかを判断できません... 何を提案しますか? 私はすべての答えに感謝しています!