親愛なる CUDA ユーザーの皆様 nvidia ボードからの質問を再投稿します。現在、GPU で画像処理を行っており、大きな画像を実行するときに 500 ~ 700 ミリ秒かかるカーネルが 1 つあります。以前は小さい画像でも問題なく動作していましたが、現在はディスプレイ全体とマウス カーソルでさえ遅延が発生しています(OS=win7) 。
私のアイデアは、カーネルを 4 回または 8 回のカーネル起動に分割して、ドライバーがより頻繁に (各カーネル起動間で) 更新されることを期待することでした。残念ながら、それはまったく役に立たないので、このフリーズ表示効果を回避するために他に何ができるでしょうか? cudaStreamQuery(0)
ドライバーによるパッキングを避けるために、各カーネル間に呼び出しを追加するよう提案されました。
注: スムーズさのためにパフォーマンスを犠牲にする準備ができています!