以前は数学的最適化手法によって取り組まれてきた問題 (巡回セールスマン問題、ジョブ スケジューリング、タクシー共有問題など) に強化学習を利用することを決定するのはいつになるのだろうかと考えていました。
強化学習は、オペレーショナル リサーチが特定のコスト関数の結果を最適化しようとするのと同様の方法で、特定のコスト/報酬関数を最小化/最大化することを目的としているため、2 つの当事者のいずれかが解決できる問題に取り組むことができると思います。他によって。しかし、これは事実ですか?両者の間にトレードオフはありますか?上記の問題に関してRLで行われた調査はあまり見たことがありませんが、間違っている可能性があります。
誰かが何か洞察を持っているなら、彼らは非常に高く評価されます!!