一般に、GPU の場合、どちらのアクセス モードが高速ですか (グローバル メモリの連続ブロックからデータを読み取る)?
(1) グローバルメモリのブロックからデータを読み取る単一または非常に少数のスレッドによる for ループ。
(2) おそらく異なるブロックからの多くのスレッドが、グローバルメモリから同時にデータを読み取るようにします。
例えば
if (threadIdx.x==0)
{
for (int i=0; i<1000; ++i)
buffer[i]=data[i];//data is stored in global memory
}
OR:
buffer[threadIdx.x]=data[threadIdx.x];//there are 1000 threads in this thread block