seq2seq モデルのデフォルト設定を使用して、約 100 万文のカスタム並列コーパスで何日もの間、seq2seq モデルをトレーニングしています。以下は、チュートリアルで述べたように 350k ステップを超えた出力ログです。バケットのパープレキシティが突然大幅に増加したことがわかりました。全体的なトレインのパープレキシーは長い間 1.02 で一定であり、学習率も 0.5 で初期化されていましたが、現在は約 0.007 を示しているため、学習率も大幅に低下しています。システムのアウトプットは満足のいくものにはほど遠い。エポック ポイントに到達したかどうかを知るにはどうすればよいですか? また、パラメーターの調整やオプティマイザーの改善などの設定を停止して再構成する必要がありますか?
グローバル ステップ 372800 学習率 0.0071 ステップ時間 1.71 パープレキシティ 1.02 eval: バケット 0 困惑 91819.49 eval: バケット 1 の困惑 21392511.38 eval: バケット 2 の困惑 16595488.15 eval: バケット 3 の困惑 7632624.78 グローバル ステップ 373000 学習率 0.0071 ステップ時間 1.73 パープレキシティ 1.02 eval: バケット 0 困惑 140295.51 eval: バケット 1 の困惑 13456390.43 eval: バケット 2 の困惑 7234450.24 eval: バケット 3 困惑 3700941.57 グローバル ステップ 373200 学習率 0.0071 ステップ時間 1.69 パープレキシティ 1.02 eval: バケット 0 困惑 42996.45 eval: バケット 1 の困惑 37690535.99 eval: バケット 2 困惑 12128765.09 eval: バケット 3 困惑 5631090.67 グローバル ステップ 373400 学習率 0.0071 ステップ時間 1.82 パープレキシティ 1.02 eval: バケット 0 困惑 119885.35 eval: バケット 1 の困惑 11166383.51 eval: バケット 2 の困惑 27781188.86 eval: バケット 3 困惑 3885654.40 グローバル ステップ 373600 学習率 0.0071 ステップ時間 1.69 パープレキシティ 1.02 eval: バケット 0 困惑 215824.91 eval: バケット 1 の困惑 12709769.99 eval: バケット 2 の困惑 6865776.55 eval: バケット 3 困惑 5932146.75 グローバル ステップ 373800 学習率 0.0071 ステップ時間 1.78 パープレキシティ 1.02 eval: バケット 0 困惑 400927.92 eval: バケット 1 の困惑 13383517.28 eval: バケット 2 の困惑 19885776.58 eval: バケット 3 困惑 7053727.87 グローバル ステップ 374000 学習率 0.0071 ステップ時間 1.85 パープレキシティ 1.02 eval: バケット 0 困惑 46706.22 eval: バケット 1 の困惑 35772455.34 eval: バケット 2 の困惑 8198331.56 eval: バケット 3 困惑 7518406.42 グローバル ステップ 374200 学習率 0.0070 ステップ時間 1.98 パープレキシティ 1.03 eval: バケット 0 困惑 73865.49 eval: バケット 1 の困惑 22784461.66 eval: バケット 2 の困惑 6340268.76 eval: バケット 3 の困惑 4086899.28 グローバル ステップ 374400 学習率 0.0069 ステップ時間 1.89 パープレキシティ 1.02 eval: バケット 0 困惑 270132.56 eval: バケット 1 の困惑 17088126.51 eval: バケット 2 の困惑 15129051.30 eval: バケット 3 の困惑 4505976.67 グローバル ステップ 374600 学習率 0.0069 ステップ時間 1.92 パープレキシティ 1.02 eval: バケット 0 困惑 137268.32 eval: バケット 1 の困惑 21451921.25 eval: バケット 2 の困惑 13817998.56 eval: バケット 3 困惑 4826017.20
そして、これはいつ停止しますか?