問題タブ [horovod]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1054 参照

tensorflow - Tensorflow Mirror 戦略と Horovod 配布戦略

Tensorflow Mirror Strategy と Horovod Distribution Strategy の基本的な違いは何かを理解しようとしています。

ドキュメントとソース コードの調査から、Horovod ( https://github.com/horovod/horovod ) が Message Passing Protocol (MPI) を使用して複数のノード間で通信していることがわかりました。具体的には MPI の all_reduce、all_gather を使用します。

私の観察によると (間違っているかもしれません)、Mirror Strategy も all_reduce アルゴリズムを使用しています ( https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/distribute )。

どちらも、データ並列の同期トレーニング アプローチを使用しています。それで、私はそれらがどのように違うのか少し混乱していますか?違いは実装のみですか、それとも他の (理論的な) 違いがありますか?

また、horovod と比較して、ミラー戦略のパフォーマンスはどうですか?

0 投票する
1 に答える
430 参照

python - Tensorflow、Horovod、および NVLINK NotFoundError

uber の horovod ライブラリを使用して、GPU で実行される te​​nsorflow ニューラル ネットワークを実行しようとしています。同時に、複数の gpu 間のnvlinkを測定する測定スクリプトを実行しようとしています。残念ながら、ファイルを実行するたびに、次のエラーが表示されます。

tensorflow.python.framework.errors_impl.NotFoundError: /home/pat/.virtualenvs/venv/lib/python3.6/site-packages/horovod /tensorflow/mpi_lib.cpython-36m-x86_64-linux-gnu.so: 未定義のシンボル: _ZN10tensorflow14kernel_factory17OpKernelRegist rar12InitInternalEPKNS_9KernelDefEN4absl11string_viewESt10unique_ptrINS0_15OpKernelFactoryESt14default_deleteIS8_EE

この問題を解決する方法を知っている人はいますか?

ありがとうございました。