マルコフ決定問題について学習しようとしており、値の反復のアルゴリズムが与えられましたが、それらを実際の C++ コードに変換する方法がわかりません。主に総和などが発生する部分。アルゴリズムは次のとおりです。
function VALUE-ITERATION(P;R) returns a utility matrix
inputs: P, a transition-probability matrix
R, a reward matrix
local variables: U, utility matrix, initially identical to R
U', utility matrix, initially identical toR
repeat
U <- U'
for each state i do
U'(s_i) <- R(s_i) + max_a Summation_j P^a_ij*U(s_j)
end
until max_(s_i) |U(s_i) - U'(s_i)| < e
return U
これは私には象形文字のように見えますが、もっと役立つ単純なアルゴリズムはありますか? それとも、誰かが私のためにそれを馬鹿にすることができますか?