3

小売業向けのレコメンドシステムでDQNを使いたい

しかし問題は、この質問の状態空間が時間的に不均一であり、決定論的ではないことです

(アタリゲームとの比較)

この問題の2つの方法を見つけます

  • 状態遷移を決定論的にする
  • 履歴データを使用して遷移確率を計算し、確率を使用して状態を遷移する

しかし...どちらも意味がないようです

誰かこういう問題を指摘して

強化学習に基づく推薦システムを構築したい場合

どこから始めればいいですか?

4

0 に答える 0