この論文で説明されているように、TD-Lambda 学習アルゴリズムを使用するTD-Gammon を実装しようとしています。これはすでにここで行われていますが、4 年前のものであり、Tensorflow 2 を使用していません。Tensorflow 2 でこれを実行しようとしていますが、リンク先の論文で説明されているように、重みの変更を実行するカスタム オプティマイザを作成する必要があると考えています。その上。
カスタム オプティマイザーを作成するには、Optimizer クラスをサブクラス化しcreate_slots
、、、、およびメソッドを実装する必要があることを知っています。ただし、TD-Lambda の重み変更アルゴリズムには、ニューラル ネットワークの出力 (および論文) が必要であり、メソッドはそれにアクセスできないようです。resource_apply_dense
resource_apply_sparse
get_config
Y_t-1
Y_t
resource_apply_dense
ニューラル ネットワークの出力にアクセスするにはどうすればよいですか? それとも、私はこれについて間違った方法で進んでいますか?