tensorflow - Tensorflow Mirror 戦略と Horovod 配布戦略

翻译自：https://stackoverflow.com/questions/55008213 2019-03-05T17:15:21.720

1054 次

Tensorflow Mirror Strategy と Horovod Distribution Strategy の基本的な違いは何かを理解しようとしています。

ドキュメントとソースコードの調査から、Horovod ( https://github.com/horovod/horovod ) が Message Passing Protocol (MPI) を使用して複数のノード間で通信していることがわかりました。具体的には MPI の all_reduce、all_gather を使用します。

私の観察によると (間違っているかもしれません)、Mirror Strategy も all_reduce アルゴリズムを使用しています ( https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/distribute )。

どちらも、データ並列の同期トレーニングアプローチを使用しています。それで、私はそれらがどのように違うのか少し混乱していますか？違いは実装のみですか、それとも他の (理論的な) 違いがありますか?

また、horovod と比較して、ミラー戦略のパフォーマンスはどうですか?

tensorflow - Tensorflow Mirror 戦略と Horovod 配布戦略

2 に答える 2

Related

Reference