OpenCL プログラムを最適化する必要があります。そのため、GPU (小さな 4 コアのもの) が提供するベクトル操作を使用してそれを行う必要があると思います。
処理できる型の char / short / int / floatn の推奨ベクター幅は 4 であることがわかりました。
電話するだけでいいと思います:
__kernel void mykernel(__global char4 *a,
__global char4 *b)
ベクトル演算を使用するには、OpenCL が 'a' を 4 の倍数でない場合にどのように処理するのでしょうか?
ありがとう
バティスト