このドキュメントhttps://pytorch.org/docs/stable/distributed.htmlに示されているように、Pytorch 分散の Gloo の場合、次のコードは CUDA 対応 MPI を使用することでパフォーマンス上の利点を得られますか? (例: CPU をバイパスしながら PCIe 経由で GPU から GPU への転送)
group = dist.new_group([0, 1], backend="gloo")
dist.all_reduce(gpu_tensor_a, op=dist.ReduceOp.SUM, group=group)