状態とアクションのペアのユーティリティの内部表現を維持しながら、状態を取り込んでアクションを返すエージェントがあります。また、アクションを取り、状態/報酬のペアを返す環境もあります。
開始状態でエージェントをセットアップし、エージェント -(アクション) -> 環境 -(状態、報酬) -> エージェント -(アクション) -> ... から継続的に移動できるようにする必要がありますが、内部状態は(反復ごとに更新する必要があります) 非公開のままにする必要があります (つまり、エージェントまたは環境内で)。これは、state と action を引数として使用して、エージェント内の関数として environment を単純に呼び出すことができないことを意味します。
私はHaskell初心者なので、これが可能かどうかさえわかりません。