私の CUDA アプリケーションは、ボリュームに対して連想削減を実行します。基本的に、各スレッドは、グローバル メモリ内の同じ出力バッファのオーバーラップする場所に原子的に追加される値を計算します。
異なる入力パラメーターと同じ出力バッファーを使用して、このカーネルを同時に起動することはできますか? つまり、各カーネルは同じグローバル バッファを共有し、アトミックに書き込みます。
すべてのカーネルが同じ GPU で実行されています。
私の CUDA アプリケーションは、ボリュームに対して連想削減を実行します。基本的に、各スレッドは、グローバル メモリ内の同じ出力バッファのオーバーラップする場所に原子的に追加される値を計算します。
異なる入力パラメーターと同じ出力バッファーを使用して、このカーネルを同時に起動することはできますか? つまり、各カーネルは同じグローバル バッファを共有し、アトミックに書き込みます。
すべてのカーネルが同じ GPU で実行されています。