3

inception_distributed_train.py (同期データ並列処理)とほぼ同じですが、基本的な例のデフォルトのmnist データセットを使用して、分散 TensorFlow をテストしています。

マスター ワーカー (のみ) の場合sv = tf.train.Supervisor、クロージングの場合sv.stop()RuntimeError: ('Coordinator stopped with threads still running: %s', 'Thread-4').

同時に、psノード上で logs が表示Variable:0: Skipping cancelled dequeue attempt with queue not closedされ、変数 1 ~ 7 についても同様に表示されますが、興味深いことに、 として定義され、 に渡された変数 8 については表示さglobal_step = tf.Variable(0)れません。tf.train.SyncReplicasOptimizerminimizeglobal_step

このエラーは誰かにベルを鳴らしますか? 自分のロジックがinception_distributed_train.pyのロジックとどこが違うのか本当にわかりません

4

0 に答える 0