0

ノード A とノード B の間の重みが、ノード A からノード B への遷移が行われた回数を示す、有向加重グラフ データ構造があります。

データ構造の目的は、ノード間の移動のパターンを識別することです。

このため、重みは遷移ごとに直線的に増加します (増加させるより良い方法があれば教えてください)

ただし、ユーザーが通常の移動経路から外れると、パターンの変化に応じて重みが迅速に調整されるように、最も可能性の高い経路にペナルティを割り当て、新たに選択した経路に強化を割り当てる必要があります。これにより、システムの自己学習がより迅速になります。

このペナルティ/強化を割り当てる最良の方法は何ですか? 重みを半分/2倍にすることをランダムに選択することもできますが、それには理由がなく、気まぐれに聞こえます.

4

1 に答える 1

0

私はむしろ、新しい道の報酬に高い価値を与えたいと思っています。移動時間の逆数のボーナスを追加するかもしれません。

可能性のあるパスにペナルティを課すことはお勧めしません。それは州の一部ではなく、RL がどのように機能するかでもありません。むしろ、適格性トレースを考慮してください。

別の注意として、学習を調整/微調整するのではなく、状態の初期化を改善することを検討してください。現在、データに関する背景情報を適用しようとしているようです。

于 2015-03-27T13:21:32.380 に答える