入力をエンコードするために RNN を使用する複雑なニューラル ネットワーク アーキテクチャをトレーニングしています。
現在、アーキテクチャのディープ ニューラル ネットワーク部分 (ユニット数と隠れ層の数) を最適化しています。
現在、すべてのレイヤーにシグモイド活性化を使用しています。これは少数の隠れ層では問題ないように見えますが、層の数が増えるにつれて、シグモイドは最良の選択ではないようです。
最初にシグモイドのハイパーパラメータ最適化を行い、次に ReLu を行うべきだと思いますか、それとも ReLu を直接使用する方がよいでしょうか?
また、ソフトマックス出力があることを考えると、最初の隠れ層に Relu を配置し、最後の隠れ層にのみシグモイドを配置することは理にかなっていると思いますか。