pytorch - GPU テンソル集団通信のための Pytorch の Gloo

質問する 2021-10-14T23:40:35.933

19 次

このドキュメントhttps://pytorch.org/docs/stable/distributed.htmlに示されているように、Pytorch 分散の Gloo の場合、次のコードは CUDA 対応 MPI を使用することでパフォーマンス上の利点を得られますか? (例: CPU をバイパスしながら PCIe 経由で GPU から GPU への転送)

group = dist.new_group([0, 1], backend="gloo")
dist.all_reduce(gpu_tensor_a, op=dist.ReduceOp.SUM, group=group)

pytorch - GPU テンソル集団通信のための Pytorch の Gloo

0 に答える 0

Related

Reference