opencl - OpenCL でローカルメモリの結果を取得できますか?

Question

OpenCL には 2 つのワークグループがあり、それぞれに 100 個のワークアイテムがあります。だから私はこのようなことをします：

....
clSetKernelArg(kernel, 0, sizeof(cl_mem), (void *)&hDeviceMemInput);  
clSetKernelArg(kernel, 1, sizeof(cl_mem), (void *)&hDeviceMemOutput); 
clSetKernelArg(kernel, 2, sizeof(cl_float) * 100, NULL);
clSetKernelArg(kernel, 3, sizeof(cl_int) * 1, &mCount);

clEnqueueNDRangeKernel(CmdQueue, Kernel, 1, 0, 200, 100, 0, 0, 0); 
....

OpenCL コード:

__kernel square(
__global float *input,
__global float *output,
__local float *temp,
const unsigned int count)
{
int gtid = get_global_id(0);
int ltid = get_local_id(0);
if (gtid < count)
{
    temp[ltid] = input[gtid];
    output[gtid] =  temp[ltid] * temp[ltid];
}
}

私が理解しているように、各グループには float[100] ローカル一時変数があります。私の場合、デバイスには float[100] が 2 つあります。n 個のワークグループがある場合、デバイスには n 個の float[100] があります。そうですか？__local float *temp はデバイスで使用されていますか? 次のようなものを使用して、カーネルからアクセスできますか?

clEnqueueReadBuffer(CmdQueue, ??, CL_TRUE, 0, 100* sizeof(cl_float),  
    host_temp, 0, 0, 0);

ローカルメモリはグローバルメモリよりもはるかに高速ですか? ローカルメモリを使用するためのヒントはありますか?

score 2 · Accepted Answer

ローカルメモリは、非常に高速な一時メモリです。したがって、アクセスしたり、読み返したりすることはできません。連続して上書きされるからです。実際、メモリはデバイスで予約されていないため、2 つのワークグループが同じローカルメモリを異なる時間に使用する可能性があります (実際にそうなる可能性があります)。100 個のグループと 2 個のコンピューティングユニットがある場合... 上書きが何回発生するか想像してみてください。

ローカルメモリの結果を読み取りたい場合は、最初にグローバルにコピーしてから、そこから読み取る必要があります。

ローカルメモリの意図は、一時的な中間結果と高速アクセスのためにワークアイテム間で何かを共有することです。その後、それは破壊されます。これは多くのことに役立ちます。簡単な例の 1 つは、画像のフィルタリングです。

編集：

ローカルメモリは、レジスタ、つまり HW リソースと考えることができます。レジスタを RAM として使用することはできません。ローカルメモリをグローバルメモリとして使用できないのと同じです。

opencl - OpenCL でローカル メモリの結果を取得できますか?

1 に答える 1

Related

Reference

opencl - OpenCL でローカルメモリの結果を取得できますか?