問題タブ [horovod]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - Horovod で複数の GPU を使用するのは正常ですか?
次のチュートリアルに従って、run_classifier.py と optmization.py を変更して、bert トレーニング用に複数の GPU を有効にしました。
それから私は走った:
このコマンドは正常に実行されますが、nvidia-smi では GPU が 1 つしか使用されていないことが示されているため、複数の GPU が実際に使用されているかどうかはわかりませんが、「トップ」出力では、「mgpu_run_classifier の 2 つのインスタンスが使用されている」ことが示されています。 .py" が実行されています。どこかで何らかの問題が発生していると思われます。
tensorflow - マルチプロセッシングによる tfrecord 読み込みの DataLossError
MNIST画像データセットから tfrecord を作成し、tfrecord を tf.data.dataset に変換します。「python3 tfrecord1.py」実行中は正常です。しかし、「mpirun -np 2 python3 tfrecord1.py」の実行中に DataLossError が発生しました。
私のコードに何か問題があるのかもしれません。
私のコンピューティング環境: ubuntu 20.04、tensorflow 2.6.0、horovod 0.23、32 CPU、GPU なし
threcord1.py