CUDA で活用できるタスク並列処理には、いくつかの異なる形式があります。カーネルの実行と並行して、メモリのコピーを前後に実行できます。この場合、cudaHostAlloc を使用して固定メモリとしてホスト メモリを割り当てる必要があり、ストリームを使用して並列処理を実行できます。しかし、ストリームを使用していくつかのカーネルを互いに並行して実行することにのみ関心がある場合は、固定されたメモリを使用する必要がありますか、または通常の固定されていないメモリを使用できますか (つまり、malloc を使用します)?
ありがとうございました、