1

seq2seq モデルのデフォルト設定を使用して、約 100 万文のカスタム並列コーパスで何日もの間、seq2seq モデルをトレーニングしています。以下は、チュートリアルで述べたように 350k ステップを超えた出力ログです。バケットのパープレキシティが突然大幅に増加したことがわかりました。全体的なトレインのパープレキシーは長い間 1.02 で一定であり、学習率も 0.5 で初期化されていましたが、現在は約 0.007 を示しているため、学習率も大幅に低下しています。システムのアウトプットは満足のいくものにはほど遠い。エポック ポイントに到達したかどうかを知るにはどうすればよいですか? また、パラメーターの調整やオプティマイザーの改善などの設定を停止して再構成する必要がありますか?

グローバル ステップ 372800 学習率 0.0071 ステップ時間 1.71 パープレキシティ 1.02
  eval: バケット 0 困惑 91819.49
  eval: バケット 1 の困惑 21392511.38
  eval: バケット 2 の困惑 16595488.15
  eval: バケット 3 の困惑 7632624.78
グローバル ステップ 373000 学習率 0.0071 ステップ時間 1.73 パープレキシティ 1.02
  eval: バケット 0 困惑 140295.51
  eval: バケット 1 の困惑 13456390.43
  eval: バケット 2 の困惑 7234450.24
  eval: バケット 3 困惑 3700941.57
グローバル ステップ 373200 学習率 0.0071 ステップ時間 1.69 パープレキシティ 1.02
  eval: バケット 0 困惑 42996.45
  eval: バケット 1 の困惑 37690535.99
  eval: バケット 2 困惑 12128765.09
  eval: バケット 3 困惑 5631090.67
グローバル ステップ 373400 学習率 0.0071 ステップ時間 1.82 パープレキシティ 1.02
  eval: バケット 0 困惑 119885.35
  eval: バケット 1 の困惑 11166383.51
  eval: バケット 2 の困惑 27781188.86
  eval: バケット 3 困惑 3885654.40
グローバル ステップ 373600 学習率 0.0071 ステップ時間 1.69 パープレキシティ 1.02
  eval: バケット 0 困惑 215824.91
  eval: バケット 1 の困惑 12709769.99
  eval: バケット 2 の困惑 6865776.55
  eval: バケット 3 困惑 5932146.75
グローバル ステップ 373800 学習率 0.0071 ステップ時間 1.78 パープレキシティ 1.02
  eval: バケット 0 困惑 400927.92
  eval: バケット 1 の困惑 13383517.28
  eval: バケット 2 の困惑 19885776.58
  eval: バケット 3 困惑 7053727.87
グローバル ステップ 374000 学習率 0.0071 ステップ時間 1.85 パープレキシティ 1.02
  eval: バケット 0 困惑 46706.22
  eval: バケット 1 の困惑 35772455.34
  eval: バケット 2 の困惑 8198331.56
  eval: バケット 3 困惑 7518406.42
グローバル ステップ 374200 学習率 0.0070 ステップ時間 1.98 パープレキシティ 1.03
  eval: バケット 0 困惑 73865.49
  eval: バケット 1 の困惑 22784461.66
  eval: バケット 2 の困惑 6340268.76
  eval: バケット 3 の困惑 4086899.28
グローバル ステップ 374400 学習率 0.0069 ステップ時間 1.89 パープレキシティ 1.02
  eval: バケット 0 困惑 270132.56
  eval: バケット 1 の困惑 17088126.51
  eval: バケット 2 の困惑 15129051.30
  eval: バケット 3 の困惑 4505976.67
グローバル ステップ 374600 学習率 0.0069 ステップ時間 1.92 パープレキシティ 1.02
  eval: バケット 0 困惑 137268.32
  eval: バケット 1 の困惑 21451921.25
  eval: バケット 2 の困惑 13817998.56
  eval: バケット 3 困惑 4826017.20

そして、これはいつ停止しますか?

4

1 に答える 1