問題タブ [dqn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
150 参照

pytorch - pytorch をテストするための保存されたモデルとオプティマイザのロード

私は torch==1.7.1 を使用して ubuntu 18.04 を使用しています

私がやりたいことは、強化学習エージェントを訓練し、それを別のサーバーに送信して、訓練されたエージェントがすぐにプレイできるようにすることです。

私はhttps://pytorch.org/tutorials/beginner/ Saving_loading_models.htmlに従っていますが、明確化が必要です。

すべてのトレーニングが終了したら、次の方法でエージェント、オプティマイザーを保存しました。

ここで、この保存したファイルを別のサーバーに送信し、次のようにロードしました。

一つだけ確認したいことがあります。トレーニング段階でのエージェント インスタンスとオプティマイザの作成中に、次を使用してオプティマイザをインスタンス化しました。agent.parameters()

だから私の質問は私がする必要がありますか

  1. load_state_dict をエージェントに送信し、agent.parameters() を使用してオプティマイザーをインスタンス化します
  2. load_state_dict をエージェントにロードする前にオプティマイザーをインスタンス化するだけですか?
  3. 関係ない。

前もって感謝します。

0 投票する
1 に答える
453 参照

python - ケラスRL。トレーニング後にモデルを強化する

強化学習モデルをジム環境で予備的にトレーニングし、それを実際の環境に展開して、実際の環境で強化学習を続けたいと考えています。

初期トレーニングに TF、Keras RL + ジムを使用しています。コードは次のとおりです。それを管理する方法は何ですか? それのグーグルで失われた

私の推測では、実際の環境では 2 つのエージェントが必要で、1 つは予測用、もう 1 つはさらなるトレーニング用です。 トレーニング エージェントは、実行時に収集されたステート アクション サンプルに基づいて機能し、この新しいトレーニング済みモデルを予測モデルにマージする必要があります。それが正しい仮定である場合、どのように実装できますか?