CUDAを使用して次のアルゴリズムを実装する方法を考えようとしています。
大量のボクセルで作業し、ボクセルごとにインデックスiと値を計算しますc。計算後に実行する必要histogram[i] += c
cがあるのはfloat値であり、ヒストグラムには最大15,000のビンを含めることができます。
CUDAを使ってこれを効率的に実装する方法を探しています。最初の明らかな問題は、私が使用しているコンピューティング機能1.3ではatomicAdd()、フロートを実行することさえできないので、どうすれば確実に何かを蓄積できるかということです。
nVidiaによるこの例は、やや単純なことをします。ヒストグラムは共有メモリに保存され(サイズが原因で実行できません)、整数のみが累積されます。このアプローチを私の場合に一般化できますか?