この質問は、保存と復元に関するドキュメントが利用可能になる前に作成されました。今のところ、私はこの質問を非推奨と見なし、保存と復元に関する公式ドキュメントに依存するように人々に言います
古い質問の要点:
CIFAR TutorialでTFが正常に動作するようになりました。(チェックポイントとモデルを含むディレクトリ)を既知の場所に保存するようにコードを変更しました。
train_dir
これが私の質問につながります: TFでトレーニングを一時停止して再開するにはどうすればよいですか?
この質問は、保存と復元に関するドキュメントが利用可能になる前に作成されました。今のところ、私はこの質問を非推奨と見なし、保存と復元に関する公式ドキュメントに依存するように人々に言います
古い質問の要点:
CIFAR TutorialでTFが正常に動作するようになりました。(チェックポイントとモデルを含むディレクトリ)を既知の場所に保存するようにコードを変更しました。
train_dir
これが私の質問につながります: TFでトレーニングを一時停止して再開するにはどうすればよいですか?
TensorFlow はグラフのような計算、ノード (Ops) とエッジ (変数別名状態) を使用し、Saver
Vars を提供します。
したがって、分散計算であるため、グラフの一部を 1 つのマシン/プロセッサで実行し、残りを別のマシン/プロセッサで実行できます。その間、状態 (Vars) を保存し、次回それをフィードして作業を続行できます。
saver.save(sess, 'my-model', global_step=0) ==> filename: 'my-model-0'
...
saver.save(sess, 'my-model', global_step=1000) ==> filename: 'my-model-1000'
後で使用できる
tf.train.Saver.restore(sess, save_path)
保存した Vars を復元します。