小売業向けのレコメンドシステムでDQNを使いたい
しかし問題は、この質問の状態空間が時間的に不均一であり、決定論的ではないことです
(アタリゲームとの比較)
この問題の2つの方法を見つけます
- 状態遷移を決定論的にする
- 履歴データを使用して遷移確率を計算し、確率を使用して状態を遷移する
しかし...どちらも意味がないようです
誰かこういう問題を指摘して
強化学習に基づく推薦システムを構築したい場合
どこから始めればいいですか?
小売業向けのレコメンドシステムでDQNを使いたい
しかし問題は、この質問の状態空間が時間的に不均一であり、決定論的ではないことです
(アタリゲームとの比較)
この問題の2つの方法を見つけます
しかし...どちらも意味がないようです
誰かこういう問題を指摘して
強化学習に基づく推薦システムを構築したい場合
どこから始めればいいですか?