adam_sgd オプティマイザーを使用してニューラル ネットワークをトレーニングしていますが、関数の引数を Adam の論文で報告されているパラメーターに関連付けるのに問題があります。より具体的には、パラメーター alpha、beta1、beta2、および epsilon は、Adam の CNTK 実装における学習率と運動量にどのように関連していますか?
adam_sgd オプティマイザーを使用してニューラル ネットワークをトレーニングしていますが、関数の引数を Adam の論文で報告されているパラメーターに関連付けるのに問題があります。より具体的には、パラメーター alpha、beta1、beta2、および epsilon は、Adam の CNTK 実装における学習率と運動量にどのように関連していますか?