次のケースを考えます。
//thread 0 on device 0:
cudaMemcpyAsync(Dst0, Src0, ..., stream0);//stream0 is on Device 0;
...
//thread 1 on device 1:
cudaMemcpyAsync(Dst1, Src1, ..., stream1);//stream1 is on Device 1;
2 つの memcpy 操作を同時に実行して、ホスト デバイスの帯域幅を 2 倍にすることはできますか (ホストのメモリ帯域幅が十分である限り)。答えが「はい」の場合、そのような同時実行の上限はありますか?
単一のコンピューティング ノードで多数 (6 ~ 8 個) の GPU 用のプログラムを作成する予定です。これは、パフォーマンスにとって非常に重要です。