私はこのテーマが初めてで、極小値からの脱出についていくつかの異なることを試みています。私はランダム化された学習率と運動量を使用していますが、トレーニングの小さなパーセンタイルでは、ランダムな開始重みとバイアスを使用しても、スタックして何も学習できません (最初にスタックすることもあれば、途中でスタックすることもあります)。
XORを教えるために、次のようないくつかの異なる設定を試しました。
1)Faster learning but with a bigger chance of locally trapped.
(learns in less than 1200 iterations total)
2)Slow learning but with evading local minimum better.
(learns under 40k iterations total)
3)Very steep learning with ~%50 chance of pit-fall(learns under 300 iterations total)
質問:数人の学生をトレーニングに投入し、最適な学習者を選択することは価値がありますか? それとも、1 つの設定で 100% の成功率を得ることに集中する必要がありますか?
例:
3 students (XOR candidates) learning in parallel:
-First student is learning fast(learns first, tells others to stop to save cycles)
-Other two are slow learners to increase success rate of training