問題タブ [dqn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - pytorch をテストするための保存されたモデルとオプティマイザのロード
私は torch==1.7.1 を使用して ubuntu 18.04 を使用しています
私がやりたいことは、強化学習エージェントを訓練し、それを別のサーバーに送信して、訓練されたエージェントがすぐにプレイできるようにすることです。
私はhttps://pytorch.org/tutorials/beginner/ Saving_loading_models.htmlに従っていますが、明確化が必要です。
すべてのトレーニングが終了したら、次の方法でエージェント、オプティマイザーを保存しました。
ここで、この保存したファイルを別のサーバーに送信し、次のようにロードしました。
一つだけ確認したいことがあります。トレーニング段階でのエージェント インスタンスとオプティマイザの作成中に、次を使用してオプティマイザをインスタンス化しました。agent.parameters()
だから私の質問は私がする必要がありますか
- load_state_dict をエージェントに送信し、agent.parameters() を使用してオプティマイザーをインスタンス化します
- load_state_dict をエージェントにロードする前にオプティマイザーをインスタンス化するだけですか?
- 関係ない。
前もって感謝します。
python - ケラスRL。トレーニング後にモデルを強化する
強化学習モデルをジム環境で予備的にトレーニングし、それを実際の環境に展開して、実際の環境で強化学習を続けたいと考えています。
初期トレーニングに TF、Keras RL + ジムを使用しています。コードは次のとおりです。それを管理する方法は何ですか? それのグーグルで失われた
私の推測では、実際の環境では 2 つのエージェントが必要で、1 つは予測用、もう 1 つはさらなるトレーニング用です。 トレーニング エージェントは、実行時に収集されたステート アクション サンプルに基づいて機能し、この新しいトレーニング済みモデルを予測モデルにマージする必要があります。それが正しい仮定である場合、どのように実装できますか?