最適化を開始する前に、プロファイルの結果が何を意味するのかを理解しようとしています。私はCUDAとプロファイリング全般に非常に慣れていないため、結果に混乱しています。
具体的には、一見空いているように見える計算のチャンクの間に何が起こっているのかを知りたいです。CPU と GPU を上から下に見ていくと、コードの大部分で何も起こっていないように見えます。Thread1
これらは、と に何もない列のように見えますGeForce
。これは正常ですか?ここで何が起こっているのですか?
実行は、nvprof を使用して無負荷でマルチコア マシンで実行されました。-arch=sm_20 -m32 -g -G
GPU コードはCUDA 5 用にコンパイルされています。