分散モードで 4000 ステップ実行するモデルがあります。120 秒ごとに精度が計算されます (提供された例で行われているように)。ただし、最後のチェックポイント ファイルが見つからない場合があります。
エラー:
チェックポイント gcs://path-on-gcs/train/model.ckpt-1485 のファイルを一致させることができませんでした
チェックポイント ファイルはその場所にあります。2000 ステップのローカル実行は完全に実行されます。
last_checkpoint = tf.train.latest_checkpoint(train_dir(FLAGS.output_path))
チェックポイントはまだ保存プロセス中であり、ファイルは実際には書き込まれていないと思います。精度がそのように計算される前に待機を導入しようとしました。ただし、これは最初は機能しているように見えましたが、モデルは依然として同様の問題で失敗しました。
saver.save(session, sv.save_path, global_step)
time.sleep(2) #wait for gcs to be updated