1

Q-Learning アルゴリズムは、一意な最適ポリシーの Q に収束することが証明されています。では、Q-Learning アルゴリズムがオーバートレーニングになることはないと結論付けるのは正しいでしょうか?

4

1 に答える 1