GPUコードのどこで速度低下が発生しているかを特定しようとしています。コードがそれ自体で正しく実行されることを確認しました(エラーがスローされない、出力が正しい、正常に終了するなど)。Visual Profilerでコードをプロファイリングしようとすると、正常に実行されているように見え、正しい中間出力がstdoutにダンプされます。GPUが使用されています(cuda-gdbで確認しprintf()
、カーネル内からsをダンプしました)。すべてのコードが完了すると、VisualProfilerはviperが実行可能ファイルを終了したことを報告します。ただし、タイムラインは生成されません。代わりに、メインウィンドウには、0、10、20、25マイクロ秒がすべて互いに「折りたたまれている」と表示されます。Visual Profilerにすべての分析オプションを実行するように指示すると、24回の実行が問題なく進行しますが、タイムラインは生成されません。
私は、GeForce460を搭載したUbuntux86_64でCUDA4.2、ドライバーバージョン295.41を使用しています。