Tensorflow グラフ間同期トレーニング アプリケーションに取り組んでいます。同期トレーニングは、クラス SyncReplicasOptimizerV2 によって実現されます。クラス SyncReplicasOptimizerV2のドキュメントから、同期のために一連の勾配キューとトークン キューが作成されることを理解しています。
私は考えていた
- これらのキューはどこにありますか? チーフ ワーカー タスクまたは ps タスクですか? グラデーション キューがチーフ ワーカーにある場合、私の知る限り、チーフ ワーカー タスクもチェックポイント、初期化、要約を処理する必要があります...
- この単一のチーフ ワーカー タスクは、パフォーマンスのボトルネックになりやすいですか?
- 異なるワーカー タスク (チーフを除く) 間のネットワーク通信はありますか? はいの場合、ネットワーク通信は何のために存在しますか?
PS:私の質問はすべて、各タスクが異なるマシンにあるグラフ間複製トレーニングを実施するシナリオにあります。