私の pyopencl カーネル プログラムはグローバル サイズ (512,512) で開始され、512x512=262,144 回実行されると想定しています。512x512 の画像で関数の最小値を見つけたいのですが、最小値を計算するために 262,144 個の浮動小数点数を CPU に返したくありません。すべての 262,144 ピクセルの最小値を見つけて、その 1 つのフロートを CPU に送信するために、別のカーネル (おそらくキューで待機中) を実行したいと考えています。この方が早いと思います。待機中のカーネルのグローバル サイズは (1,1) にする必要がありますか? 次のカーネルを呼び出す前に、mf.COPY_HOST_PTR を使用して作成した float の大きな 262,144 バッファーが GPU/CPU バスを通過しないことを願っています。
ありがとうティム