GPU (GeForce 690) で実行され、単一のブロックを使用するカーネルがあります。約160
マイクロ秒で実行されます。私の計画は8
、これらのカーネルを個別に起動することです。それぞれが 1 つのブロックのみを使用するため、それぞれが個別の SM で実行され、すべてが同時に実行されます。できれば約160
マイクロ秒で実行されます。
ただし、これを行うと、カーネルごとに合計時間が直線的に増加します。カーネル320
を実行するとマイクロ秒、2
カーネルの場合は約490
マイクロ秒3
などです。
私の質問: これらのカーネルを同時に実行するには、どこかにフラグを設定する必要がありますか? それとも、明らかでないことをしなければなりませんか?