statistics - 報酬を最大化するための最適パラメータの学習

Question

それぞれに特徴データの注釈が付けられた一連の例があります。例と機能は、任意のドメインでの実験の設定を説明しています (例: スイッチ数、実施日数、参加者数など)。一部の機能は固定 (静的) ですが、将来の実験で手動で設定できる機能 (可変) もあります。各例には「報酬」機能もあります。これは、専門家によって決定された実験の成功を示す、0 から 1 の間の連続した数値です。

この例セットに基づいて、将来の実験用の一連の静的機能が与えられた場合、報酬を最大化するために特定の変数に使用する最適な値をどのように決定すればよいでしょうか?

また、この工程に正式名称はありますか？私はいくつかの調査を行いましたが、これは回帰分析に似ているように聞こえますが、同じことかどうかはまだわかりません.

score 1 · Accepted Answer

このプロセスは「実験計画法」と呼ばれます。パラメータの数、および試行間に計算を実行できるかどうか、または事前にすべての処理を選択する必要があるかどうかに応じて、使用できるさまざまな手法があります。

完全な階乗- 各組み合わせ、力ずくの方法を試してください
分数階乗- パターン内のいくつかの組み合わせを排除し、回帰を使用して不足しているデータを埋めます
Plackett-Burman、応答曲面- より洗練された方法、統計的努力と実験的努力のトレードオフ
...その他多数。これは、統計研究の活発な分野です。

実験のデータから回帰モデルを構築したら、通常の数値最適化手法を適用して最適なモデルを見つけることができます。

statistics - 報酬を最大化するための最適パラメータの学習

1 に答える 1

Related

Reference