0

Tensorflow グラフ間同期トレーニング アプリケーションに取り組んでいます。同期トレーニングは、クラス SyncReplicasOptimizerV2 によって実現されます。クラス SyncReplicasOptimizerV2のドキュメントから、同期のために一連の勾配キューとトークン キューが作成されることを理解しています。

私は考えていた

  1. これらのキューはどこにありますか? チーフ ワーカー タスクまたは ps タスクですか? グラデーション キューがチーフ ワーカーにある場合、私の知る限り、チーフ ワーカー タスクもチェックポイント、初期化、要約を処理する必要があります...
  2. この単一のチーフ ワーカー タスクは、パフォーマンスのボトルネックになりやすいですか?
  3. 異なるワーカー タスク (チーフを除く) 間のネットワーク通信はありますか? はいの場合、ネットワーク通信は何のために存在しますか?

PS:私の質問はすべて、各タスクが異なるマシンにあるグラフ間複製トレーニングを実施するシナリオにあります。

4

1 に答える 1