1000000CUDA (通常は要素)を使用して GPU に格納された符号なし整数の配列があります。配列内のすべての数値の出現をカウントしたいと思います。明確な数はわずか ( 程度10) ですが、これらの数は 1 から まであり1000000ます。約9/10番目の数字は0です。それらの数は必要ありません。結果は次のようになります。
58458 -> 1000 occurrences
15 -> 412 occurrences
sを使用した実装atomicAddがありますが、遅すぎます (多くのスレッドが同じアドレスに書き込みます)。誰かが高速/効率的な方法を知っていますか?