CUDA 7.0 (cuSolver) の SVD ルーチンを使用します。マトリックスを分割するすべての部分で SVD を実行する必要があります (たとえば、マトリックスを 2x2 ブロックに分割し、SVD を 4 回並列で実行したい)。アイデアは、行列の細分化に関連してカーネルを数回呼び出すことです。それで:
for loop(istart){
for loop(jstart){
"invoke kernel"
}
}
しかし、この方法では、カーネルへの呼び出しはシリアルであり、パラレルではありません。これらの関数をカーネルから呼び出すことはできないため、これらの呼び出しを並列化するにはどうすればよいですか?