0

次のチュートリアルに従って、run_classifier.py と optmization.py を変更して、bert トレーニング用に複数の GPU を有効にしました。

https://lambdalabs.com/blog/bert-multi-gpu-implementation-using-tensorflow-and-horovod-with-code/#demo

それから私は走った:

horovodrun -np 2 \
    -H x.x.x.x:2 \
    python mgpu_run_classifier.py \
    --task_name=mz \
    --do_train=true \  

このコマンドは正常に実行されますが、nvidia-smi では GPU が 1 つしか使用されていないことが示されているため、複数の GPU が実際に使用されているかどうかはわかりませんが、「トップ」出力では、「mgpu_run_classifier の 2 つのインスタンスが使用されている」ことが示されています。 .py" が実行されています。どこかで何らかの問題が発生していると思われます。

4

0 に答える 0