問題タブ [horovod]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - Tensorflow Mirror 戦略と Horovod 配布戦略
Tensorflow Mirror Strategy と Horovod Distribution Strategy の基本的な違いは何かを理解しようとしています。
ドキュメントとソース コードの調査から、Horovod ( https://github.com/horovod/horovod ) が Message Passing Protocol (MPI) を使用して複数のノード間で通信していることがわかりました。具体的には MPI の all_reduce、all_gather を使用します。
私の観察によると (間違っているかもしれません)、Mirror Strategy も all_reduce アルゴリズムを使用しています ( https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/distribute )。
どちらも、データ並列の同期トレーニング アプローチを使用しています。それで、私はそれらがどのように違うのか少し混乱していますか?違いは実装のみですか、それとも他の (理論的な) 違いがありますか?
また、horovod と比較して、ミラー戦略のパフォーマンスはどうですか?
python - Tensorflow、Horovod、および NVLINK NotFoundError
uber の horovod ライブラリを使用して、GPU で実行される tensorflow ニューラル ネットワークを実行しようとしています。同時に、複数の gpu 間のnvlinkを測定する測定スクリプトを実行しようとしています。残念ながら、ファイルを実行するたびに、次のエラーが表示されます。
tensorflow.python.framework.errors_impl.NotFoundError: /home/pat/.virtualenvs/venv/lib/python3.6/site-packages/horovod /tensorflow/mpi_lib.cpython-36m-x86_64-linux-gnu.so: 未定義のシンボル: _ZN10tensorflow14kernel_factory17OpKernelRegist rar12InitInternalEPKNS_9KernelDefEN4absl11string_viewESt10unique_ptrINS0_15OpKernelFactoryESt14default_deleteIS8_EE
この問題を解決する方法を知っている人はいますか?
ありがとうございました。