0

次の計算領域でループをさらに並列化する方法はありますか? #pragma acc loop ディレクティブを置き換えることは、PGI 18.1 によって無視されます。

#pragma acc host_data use_device(ptr)
    {
     cufftPlanMany( &plan, rank, ss  , &inembed, istride, idist, &onembed, ostride, odist, CUFFT_Z2Z, F.length[0]);
    // this loop
    for(int i=0;i<length[2];i++)
    {
     cufftExecZ2Z( plan, (cufftDoubleComplex *)(ptr+i*length[0]*length[1]), (cufftDoubleComplex *)(ptr+i*length[0]*length[1]), CUFFT_INVERSE );
    }
     cufftDestroy(plan);
    }

cuda は、多くの人がこの問題をすでに処理していると考えていますか?

4

1 に答える 1