次のように、比較の結果を値に直接追加してみてください。
x+= (array[startId + i] == 'C');
しかし、これはまだ分岐する可能性があると私は信じています。私の解決策は、ブロック内の配列値を共有メモリに保存し、ブロック内の各スレッドに目的の文字を割り当て、結果を独自の共有メモリ空間に配置してから削減することです。
__shared__ char l_array[BLOCK_SIZE];
__shared__ char l_results[BLOCK_SIZE];
int bid = blockDim.x * blockIdx.x;
int lid = threadIdx.x;
int tid = bid + lid;
int x=0;
char desired_char = get_character(lid);
l_array[lid] = -1;
//Store global values in shared memory
if(tid < array_size){
l_array[lid] = array[tid];
}
__syncthreads();
//Check local memory for desired character
for(int i = 0; i < BLOCK_SIZE; i++)
x+=(l_array[i] == desired_char);
//Store results into shared memory
l_results[lid] = x;
__syncthreads();
//Then reduce (poorly)
if(lid==0){
for(int i = 0; i < BLOCK_SIZE; i++)
x+= l_results[i];
}
アルゴリズム自体はわかりませんが、推測にすぎませんが、ここにある何かがこれを理解するのに役立つかもしれません。