大学のプロジェクトで、顧客からのフィードバックに基づいてオンライン コンテンツのランク付けに取り組んでいます。そのために、各コンテンツを以前のアルファおよびベータ パラメータに関連付け、得たフィードバックに基づいてそれらを更新します。試行回数を重ねるごとに、アルファ パラメータとベータ パラメータの値が増加し続けます。モデルを最近の顧客の行動にもっと反応させたいので、アップデートでは、以前のパラメータを 0.9 の係数で減衰させ、最終日のアルファ、ベータを合計します (一次不均一線形差分方程式として)。
崩壊により、モデルは一部のコンテンツが最適でなかったことを忘れ、それを再度調査しようとして、循環的な動作につながります。これを解決するより良い方法はありますか?ディストリビューションを構築するために先月のデータを調べてみましたが、それも「忘れっぽい」ようです。モデルが反応的であり、次善の戦略を忘れないようにしながら、アルファ/ベータが大きくなりすぎないようにするにはどうすればよいですか?