各状態で少なくとも 10 個のアクションがある Q ラーニングでボルツマン探索を使用しています。たった 2 つのアクションで、ボルツマン探査を次のように非常に簡単に適用できることを私は知っています。
- ボルツマン探査方程式を使用して、2 つのアクションの pr1 と pr2 を計算します。
- 乱数rを生成する
- pr1>pr2 とする。r<=pr1 の場合、確率 pr1 に対応するアクションを実行します。r>pr1 の場合、pr2 に対応するアクションを実行します。
しかし、どうすれば10個のアクションでこれを行うことができますか? 各決定ステップで、すべてのアクションの確率を更新します。これにより、最善のアクションの確率が最も高いすべてのアクションの確率分布が得られます。この場合、ボルツマン探査を使用してアクションを選択するにはどうすればよいですか?