2枚の画像間の動き補償(3840*2160)、ブロックサイズ16
カーネル分割 3840 * 135(135=2160/16)、グループ サイズ 64*1 または 128*1 (基本的に違いはありません)
現在、カーネルはグローバルな char データにアクセスしていますが、imagepos = src + mv.xy
整列していないため、char を 1 つずつ読み取る必要があります。ここにはレイテンシがあると思います。CodeXL も GPR による制限がないことを示しています。したがって、データの読み取りを高速化する方法を見つける必要があります。また、ローカルメモリの使用方法を知りたいのですが、データは一度だけ必要です。任意の提案をいただければ幸いです。