for reduction()
CUDA でOpenMP に相当するものを使用する方法を理解しようとしています。私はオンラインでいくつかの調査を行いましたが、試したことはどれもうまくいきませんでした。コード:
#pragma omp parallel for reduction(+:sum)
for (i = 0; i < N; i++)
{
float f = ... //store return from function to f
out[i] = f; //store f to out[i]
sum += f; //add f to sum and store in sum
}
私for reduction()
はOpenMPで何をするか知っています....それはforループの最後の行を可能にします。しかし、CUDA を使用して同じことを表現するにはどうすればよいでしょうか?
ありがとう!