0 から 1 の間でランダムにサンプリングする、長さ 5 のコンテキスト ベクトル x があるとします。これは、Python で次のようにコーディングできます。
import numpy as np
x = np.random.uniform(0,1,5)
まず、コンテキスト ベクトルに依存する報酬関数をモデル化します。報酬が または のいずれ0
かであるとします1
。シミュレーションでこれをモデル化する最良の方法は何ですか?
次に、100 人の異なるユーザーがいて、それぞれのコンテキストで報酬関数が変化する方法が異なるとします。したがって、報酬関数をベルヌーイ分布としてモデル化すると、ユーザーごとに異なる平均値を与えることができると思います。しかし、私はそれをさまざまなコンテキストに関してモデル化したい. それをモデル化する方法がわかりません。100 人のユーザーのセットに対して、さまざまなコンテキストで報酬をモデル化する最良の方法は何ですか?