学習率は、私のネットワークの効果の鍵です。lr = 0.05 を定義すると、トレーニング/検証精度が激しく振動しますが、lr = 0.025 はエポックまで効果が得られません[30]。だから私は、カフェでの適応学習率を覚えています。最初はベース lr = 0.1 を選択します。トレーニングが進むにつれて、lr は 0.05 に減衰し、次に 0.025 以下になります。MxNet にはこの戦略があります。どのように使用できますか?
学習率は、私のネットワークの効果の鍵です。lr = 0.05 を定義すると、トレーニング/検証精度が激しく振動しますが、lr = 0.025 はエポックまで効果が得られません[30]。だから私は、カフェでの適応学習率を覚えています。最初はベース lr = 0.1 を選択します。トレーニングが進むにつれて、lr は 0.05 に減衰し、次に 0.025 以下になります。MxNet にはこの戦略があります。どのように使用できますか?