1

CUDA 7.0 (cuSolver) の SVD ルーチンを使用します。マトリックスを分割するすべての部分で SVD を実行する必要があります (たとえば、マトリックスを 2x2 ブロックに分割し、SVD を 4 回並列で実行したい)。アイデアは、行列の細分化に関連してカーネルを数回呼び出すことです。それで:

for loop(istart){
   for loop(jstart){
       "invoke kernel"
   }
}

しかし、この方法では、カーネルへの呼び出しはシリアルであり、パラレルではありません。これらの関数をカーネルから呼び出すことはできないため、これらの呼び出しを並列化するにはどうすればよいですか?

4

0 に答える 0