ユニファイド シェーダー アレイが GPU メモリにアクセスする方法に関する情報を見つけて、それを効果的に使用する方法を理解する必要があります。私のグラフィックス カードのアーキテクチャのイメージでは、はっきりとはわかりません。
C++Amp を使用して大きな画像を GPU メモリにロードし、それを小さな断片 (4x4 ピクセルなど) に分割する必要があります。すべてのピースは、異なるスレッドで計算する必要があります。スレッドが画像へのアクセスを共有する方法がわかりません。
イメージへのアクセス中にスレッドが互いにブロックされないようにする方法はありますか? 排他的にアクセスできる独自のメモリを持っているのでしょうか?
それとも、ユニファイド メモリへのアクセスが非常に高速であるため、気にする必要がないのでしょうか (ただし、私はそれを信じていません)。画像ごとに約 10,000 のサブセットを計算する必要があるため、これは非常に重要です。