6

Tensorflow Mirror Strategy と Horovod Distribution Strategy の基本的な違いは何かを理解しようとしています。

ドキュメントとソース コードの調査から、Horovod ( https://github.com/horovod/horovod ) が Message Passing Protocol (MPI) を使用して複数のノード間で通信していることがわかりました。具体的には MPI の all_reduce、all_gather を使用します。

私の観察によると (間違っているかもしれません)、Mirror Strategy も all_reduce アルゴリズムを使用しています ( https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/distribute )。

どちらも、データ並列の同期トレーニング アプローチを使用しています。それで、私はそれらがどのように違うのか少し混乱していますか?違いは実装のみですか、それとも他の (理論的な) 違いがありますか?

また、horovod と比較して、ミラー戦略のパフォーマンスはどうですか?

4

2 に答える 2