inception_distributed_train.py (同期データ並列処理)とほぼ同じですが、基本的な例のデフォルトのmnist データセットを使用して、分散 TensorFlow をテストしています。
マスター ワーカー (のみ) の場合sv = tf.train.Supervisor
、クロージングの場合sv.stop()
はRuntimeError: ('Coordinator stopped with threads still running: %s', 'Thread-4')
.
同時に、ps
ノード上で logs が表示Variable:0: Skipping cancelled dequeue attempt with queue not closed
され、変数 1 ~ 7 についても同様に表示されますが、興味深いことに、 として定義され、 に渡された変数 8 については表示さglobal_step = tf.Variable(0)
れません。tf.train.SyncReplicasOptimizer
minimize
global_step
このエラーは誰かにベルを鳴らしますか? 自分のロジックがinception_distributed_train.pyのロジックとどこが違うのか本当にわかりません