状態->アクションペア(s、a)のデータセットがあります。ここで、各sはaの可能な選択肢に対する確率分布を定義し、各aはその確率分布からサンプリングされます。このデータセットの分類器をトレーニングしたいと思います。最尤法を予測することを学習するのではなく、aがサンプリングされた分布を予測します。
たとえば、繰り返しじゃんけんをしている場合、あなたの状態はあなたが行った前の動きと、前の状態がそのアクションを再び選択する可能性を減らす∈{Rock、Paper、Scissors}である可能性があります。その場合、私のデータセットは次のようになります。
PreviousAction,Chosen
Rock,Paper
Paper,Rock
Rock,Scissors
Scissors,Paper
Paper,Paper
...
scikit-learnでランダムフォレストを持つラベルの確率分布を学習することは可能ですか?