頻繁な補間を必要とするいくつかのタスクを実行する、既に並列化された CUDA カーネルがあります。
だからカーネルがあります
__global__ void complexStuff(...)
この補間デバイス関数を 1 回以上呼び出します。
__device__ void interpolate(...)
内挿アルゴリズムは、3 次元にわたって連続して WENO 内挿を行います。これは非常に並列化可能なタスクであり、早急に並列化したいと考えています!
構文complexStuff()
を使用してホスト コードからカーネルを呼び出すことで、カーネルを簡単に並列化できることは明らかです。がすでに並列化<<<...>>>
されていることも重要です。complexStuff()
しかし、何かを並列化する方法/CUDAデバイス関数内から新しいスレッドを作成する方法は明確ではありません...これは可能ですか? 誰か知っていますか?