私は現在、クラスのプロジェクトに取り組んでおり、オセロに似たゲームの AI を開発するために、箱の外に出ようとしています。
Negascout や MTD(f) など、最適な動きを決定するためのさまざまな手法やアルゴリズムを検討しています。ただし、それらはすべて優れた評価関数を必要とします。
関数で使用できるインジケーター {A_0...A_n} の束を考え出しました
G(state) = p_0*A_0 + p_1*A_1 + ... +p_n*A_n
そして、どうにかして p_0 から p_n の適切な値を見つけたい
1 つの提案は、機械学習を使用して関数のパラメーターを生成することでしたが、読んでみると、Q 学習などのアルゴリズムはすべて、既に報酬関数を持っている必要があることがわかりました。
さらに、Td(lambda) について読んでいると、インジケーターを手動でコーディングする必要さえないことに気付きました。どのような報酬関数を使用して学習しますか?
私の理解に欠けているものは何ですか?