1000000
CUDA (通常は要素)を使用して GPU に格納された符号なし整数の配列があります。配列内のすべての数値の出現をカウントしたいと思います。明確な数はわずか ( 程度10
) ですが、これらの数は 1 から まであり1000000
ます。約9/10
番目の数字は0
です。それらの数は必要ありません。結果は次のようになります。
58458 -> 1000 occurrences
15 -> 412 occurrences
sを使用した実装atomicAdd
がありますが、遅すぎます (多くのスレッドが同じアドレスに書き込みます)。誰かが高速/効率的な方法を知っていますか?