各ワークグループがローカル メモリに結果のベクトルを生成する OpenCL カーネルがあります。次に、後でホストに取得できるように、これらすべての結果をグローバル メモリに合計する必要があります。
これをテストするために、次のカーネル コードを作成しました。
//1st thread in each workgroup initializes local buffer
if(get_local_id(0) == 0){
for(i=0; i<HYD_DIM; i++){
pressure_Local[i] = (float2){1.0f, 0.0f};
}
}
//wait for all workgroups to finish accessing any memory
barrier(CLK_GLOBAL_MEM_FENCE | CLK_LOCAL_MEM_FENCE);
/// sum all the results into global storage
for(i=0; i<get_num_groups(0); i++){
//1st thread in each workgroup writes the group's local buffer to global memory
if(i == get_group_id(0) && get_local_id(0) == 0){
for(j=0; j<HYD_DIM; j++){
pressure_Global[j] += pressure_Local[j];
// barrier(CLK_GLOBAL_MEM_FENCE);
}
}
//flush global memory buffers:
barrier(CLK_GLOBAL_MEM_FENCE);
}
本質的に、グローバル メモリ内のベクトルのすべての要素がワークグループの数 (私の場合は 128) と等しいと予想していました。実際には、それらは通常 60 ~ 70 の間で変化し、結果は実行ごとに変化します。
誰かが私が欠けているもの、またはこれを正しく行う方法を教えてもらえますか?