OpenAI Jukebox を使用してアップサンプラーをトレーニングすると、最初のエポックの終わり (約 2 日後) に「バックワード オーバーフロー」メッセージがさらに表示され、最終的に損失値が 20 跳ね上がりました。何が問題なのですか? 同じデータを使用した VQVAE トレーニングは問題なく機能しました。
98% 28837/29318 [51:38:38<51:38, 6.44s/it, bpd=5.07, g_l=5.07, gn=43.4, l=5.07, p_l=0]
Warning. Loss is 25.929014205932617
Overflow in backward. Loss 25.929014205932617, grad norm nan, lgscale -7.203999999995833, new lgscale -8.203999999995833
98% 28838/29318 [51:38:45<51:46, 6.47s/it, bpd=5.07, g_l=5.07, gn=43.4, l=5.07, p_l=0]
Warning. Loss is 26.65635871887207
98% 28838/29318 [51:38:52<51:46, 6.47s/it, bpd=26.7, g_l=26.7, gn=1.01e+8, l=26.7, p_l=0]
98% 28839/29318 [51:38:52<53:08, 6.66s/it, bpd=26.7, g_l=26.7, gn=1.01e+8, l=26.7, p_l=0]```