CUDA では、複数のブロックをカバーし、配列のインデックスの範囲を増やすために、次のようなことを行います。
ホスト側コード:
dim3 dimgrid(9,1)// total 9 blocks will be launched
dim3 dimBlock(16,1)// each block is having 16 threads // total no. of threads in
// the grid is thus 16 x9= 144.
デバイス側コード
...
...
idx=blockIdx.x*blockDim.x+threadIdx.x;// idx will range from 0 to 143
a[idx]=a[idx]*a[idx];
...
...
上記のケースを実現するための OpenCL で同等のものは何ですか?