gym RLフレームワーク初心者で、現在gymを使った強化学習環境を構築中です。観測スペースをどのように設定する必要があるかについて、私は完全に混乱しています。私の問題は二項分類問題なので、アクション スペースに問題はありません。DISCRETE(2) です。
観察の場合、エージェントは環境から 4 つの入力を取得し、4 つすべてが配列であり、以下はそれらの配列の形状です。
Observation 1: (150,) --> i.e. array([ 0, 0, 0, 0,..., 2, 1, 21],dtype=int32)
Observation 2: (614, 2) --> i.e. array([[ 0.10108147, 0.27550402],[-0.26806018, -0.42727235],...,[-0.24262361, 0.04642992]])
Observation 3: TensorShape([614, 614]) --> i.e. <tensorflow.python.framework.sparse_tensor.SparseTensor at 0x7f2d2b7bc190>
Observation 4: (614,) --> i.e. array([0, 0, 0, 0, 0,...,0, 0])
上記の4つの観察の観察空間を定義するのを手伝ってくれる人はいますか?