ブロック内のすべてのスレッドがコード内の同じポイントにあることが絶対に必要な場合、起動されるスレッドの数がワープ内のスレッドの数と等しい場合、__ syncthreads関数が必要ですか?
注:余分なスレッドやブロックはなく、カーネルのワープは1つだけです。
コード例:
shared _voltatile_ sdata[16];
int index = some_number_between_0_and_15;
sdata[tid] = some_number;
output[tid] = x ^ y ^ z ^ sdata[index];