大規模な配列 (数百 M 要素) の GPU での並べ替えアルゴリズムの高速な実装を探しています。私はすでに cudpp を試しましたが、1 秒あたり 450M から 500M の 4 バイト キー + 4 バイト フィールドを取得しました。それは悪くはありませんでしたが、それでも CPU ができることの範囲内です。それから私はこれに出くわしました: https://code.google.com/p/back40computing/wiki/RadixSortingGTX480 で 700M キー + 値/秒を要求します。私は言った-うわー!- 私はテスラ K10 を使っているので、より強力なハードウェアを試してみる必要があります! コードを取得し、nvidia 機能 30 用にコンパイルし、試してみました...cudpp コードとほぼ同じ数値が得られます。さらに掘り下げると、cudpp は Thrust の基数ソートを使用しているように見え、bc40 アルゴリズムが Thrust に組み込まれているため、全体として同じコードを実行している可能性があります。bc40 コードでいくつかのパラメーター (ブロック サイズ、グリッド サイズなど) を試してみましたが、事態を悪化させるだけでした。ここに質問があります - 別の (より強力な) GPU で cudpp 基数ソートまたは bc40 基数ソートをテストした人はいますか? 700M/秒のキーと値の近くですか? 押す魔法のボタンはありますか?nsight プロファイラーは、GPU 使用量の悲惨な 25% を報告します (ボトルネックとしての共有メモリ アクセス)。