GPU (GeForce 690) で実行され、単一のブロックを使用するカーネルがあります。約160マイクロ秒で実行されます。私の計画は8、これらのカーネルを個別に起動することです。それぞれが 1 つのブロックのみを使用するため、それぞれが個別の SM で実行され、すべてが同時に実行されます。できれば約160マイクロ秒で実行されます。
ただし、これを行うと、カーネルごとに合計時間が直線的に増加します。カーネル320を実行するとマイクロ秒、2カーネルの場合は約490マイクロ秒3などです。
私の質問: これらのカーネルを同時に実行するには、どこかにフラグを設定する必要がありますか? それとも、明らかでないことをしなければなりませんか?