並べ替える必要がある大量のデータがあり、それぞれ数万の値を持つ数百万の配列があります。私が疑問に思っているのは、次のとおりです。
GPUで並列ソートアルゴリズムを実装し、すべての配列で実行する方が良いですか?
また
クイックソートなどのシングル スレッド アルゴリズムを実装し、GPU の各スレッドに異なる配列を割り当てます。
明らかに、速度が最も重要な要素です。シングル スレッドの並べ替えアルゴリズムでは、メモリが制限要因になります。私はすでに再帰的なクイックソートを実装しようとしましたが、大量のデータでは機能しないようですので、メモリの問題があると仮定しています.
ソートされるデータ型が長いため、数値のバイナリ表現が長すぎるという事実により、基数ソートが可能になるとは思いません。
任意のポインタをいただければ幸いです。