問題タブ [horovod]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
39 参照

tensorflow - Horovod で複数の GPU を使用するのは正常ですか?

次のチュートリアルに従って、run_classifier.py と optmization.py を変更して、bert トレーニング用に複数の GPU を有効にしました。

https://lambdalabs.com/blog/bert-multi-gpu-implementation-using-tensorflow-and-horovod-with-code/#demo

それから私は走った:

このコマンドは正常に実行されますが、nvidia-smi では GPU が 1 つしか使用されていないことが示されているため、複数の GPU が実際に使用されているかどうかはわかりませんが、「トップ」出力では、「mgpu_run_classifier の 2 つのインスタンスが使用されている」ことが示されています。 .py" が実行されています。どこかで何らかの問題が発生していると思われます。

0 投票する
0 に答える
30 参照

tensorflow - マルチプロセッシングによる tfrecord 読み込みの DataLossError

MNIST画像データセットから tfrecord を作成し、tfrecord を tf.data.dataset に変換します。「python3 tfrecord1.py」実行中は正常です。しかし、「mpirun -np 2 python3 tfrecord1.py」の実行中に DataLossError が発生しました。

私のコードに何か問題があるのか​​もしれません。

私のコンピューティング環境: ubuntu 20.04、tensorflow 2.6.0、horovod 0.23、32 CPU、GPU なし

threcord1.py

ここに画像の説明を入力