非常に頻繁に呼び出されるCUDAを使用した畳み込みカーネルがあります(リアルタイムレンダリングに使用されます)。カーネルを呼び出すたびに cudaMalloc と cudaFree を使用する必要がありますか? cudaMalloc の結果へのポインターを格納し、カーネルの実行前に cudaMemcpy を実行しようとしましたが、奇妙な動作が発生しました (カーネルの実行後に空のメモリなど)。
固定メモリを使用することも考えていましたが、毎回割り当てて解放する必要があると、アプリケーションの速度が低下する可能性さえあります。非常に頻繁に呼び出されるカーネルをどのように処理すればよいですか?