私は、多少独立して、多数の小さな配列に対して少数の操作を実行する必要があるアルゴリズムに取り組んでいます。
アイデアを与えるには:
- 通常 0.5k ~ 1k 要素の長さの配列の 1k ソート。
- ランクが 10 ~ 20 の行列の 1k の LU ソルブ。
すべてがフロートです。
次に、この問題にはいくつかの水平性があります。上記の操作は、10k アレイで個別に実行する必要があります。
また、中間結果を保存する必要はありません。たとえば、並べ替えられた配列を保持する必要はなく、最小の $m$ 要素の合計のみを保持する必要があります。
全体が C++ でプログラムされ、実行されます。私の質問は次のとおりです。CUDA を使用すると、このような問題が大幅に高速化 (2 倍以上) されると思いますか?