次のチュートリアルに従って、run_classifier.py と optmization.py を変更して、bert トレーニング用に複数の GPU を有効にしました。
それから私は走った:
horovodrun -np 2 \
-H x.x.x.x:2 \
python mgpu_run_classifier.py \
--task_name=mz \
--do_train=true \
このコマンドは正常に実行されますが、nvidia-smi では GPU が 1 つしか使用されていないことが示されているため、複数の GPU が実際に使用されているかどうかはわかりませんが、「トップ」出力では、「mgpu_run_classifier の 2 つのインスタンスが使用されている」ことが示されています。 .py" が実行されています。どこかで何らかの問題が発生していると思われます。