私は大きな配列(たとえば512K要素)をGPUに常駐させており、処理する必要があるのはごく一部の要素(たとえば、5Kのランダムに分散された要素-セットS)だけです。どの要素がSに属するかを見つけるアルゴリズムは非常に効率的であるため、集合Sから要素へのポインターまたはインデックスの配列Aを簡単に作成できます。
Sの要素に対してのみCUDAまたはOpenCLカーネルを実行する最も効率的な方法は何ですか?アレイA上でカーネルを実行できますか?これまでに見たすべての例は、連続した1D、2D、または3Dアレイを扱っています。間接参照の1つのレイヤーを導入することに問題はありますか?