- 部分観測マルコフ過程で確率関数を実装するために多層NNを使用しようとしています。
- NNへの入力は次のようになると思いました:現在の状態、選択されたアクション、結果の状態。出力は[0,1]の確率です(現在の状態で選択されたアクションを実行すると結果の状態につながる可能性があります)
- トレーニングでは、前述の入力をNNにフィードし、すでに発生した各ケースのoutput=1.0を教えました。
問題:
ほぼすべてのテストケースで、出力確率は0.95に近いです。0.9未満の出力はありませんでした。ほぼ不可能な結果であっても、それはその高い確率を与えました。
PS:これは、起こったケースだけを教えたからだと思いますが、起こっていないケースは教えていません。しかし、エピソードの各ステップで、起こっていないアクションごとにoutput=0.0を教えることはできません。
この問題を克服する方法について何か提案はありますか?または、NNを使用したり、prob関数を実装したりする別の方法でしょうか?
ありがとう