問題タブ [log-likelihood]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
optimization - tanh(mean + std*z) の対数尤度の近似値
特定の状態のアクションのガウス分布の平均と標準偏差を出力するポリシーを表すニューラル ネットワークがあるソフト アクター 批評家のブログを理解しようとしています。確率的ノードを介した直接逆伝播は不可能であるため、次のように再パラメータ化のトリックが適用されます。
log_prob 項がどのように派生したかを知りたいです。どんな助けでも大歓迎です。
python - Scipy オプティマイザーは、パラメーターの指定方法を変更すると爆発/発散します
最小化する負の対数尤度関数があります。関数に直接ではなく、最適化する関数のパラメーターとして観測値の配列を設定したいのですが、奇妙なことに、オプティマイザーが爆発します。これがなぜなのかを知りたいと思っています。最終的には、最適化を収束させるために何を変更する必要があるかを理解したいと思っています。
この方法で観測値を関数のパラメーターとして設定します: mn は scipy.optimize.minimize を表します
結果は次のとおりです。
一方、パラメータとしてではなく内部的に観察を設定した場合
私はいくつかのかなり良い見積もりを取得します
オプティマイザーがそれを成功と見なさなくても。