cublasに関する一般的な質問です。シングルスレッドの場合、GPUからCPUへのメモリ転送(例:cublasGetVector)がない場合、cublasカーネル関数(例:cublasDgemm)は自動的にホストと同期されますか?
cublasDgemm();
//cublasGetVector();
host_functions()
さらに、2つの隣接するカーネル呼び出しの間はどうですか?
cublasDgemm();
cublasDgemm();
また、以前のカーネルで使用されていたグローバルメモリを含まない同期転送についてはどうでしょうか。
cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);