単純なマルコフ決定プロセスWikipediaの値反復アルゴリズムをPython で実装しました。特定のマルコフ過程の構造 (状態、アクション、遷移、報酬) を保持し、それを反復するために、次のデータ構造を使用しました。
状態とそれらの状態で使用可能なアクションの辞書:
SA = { 'state A': {' action 1', 'action 2', ..}, ...}
遷移確率の辞書:
T = {('state A', 'action 1'): {'state B': probability}, ...}
報酬の辞書:
R = {('state A', 'action 1'): {'state B': reward}, ...}
.
私の質問は次のとおりです。これは正しいアプローチですか?MDP に (Python で) 最も適したデータ構造は何ですか?