PGI 15.7 コンパイラで openacc を使用してコードを高速化しようとしています。
コードを C ソース レベルでプロファイリングしたいと考えています。CUDA 7.0 の「nvvp」プロファイラーを使用しています。nvvp を実行すると、「分析タップ」を使用して、どのレイテンシーがコードの速度低下の原因であるかを取得できます。(データの依存関係、条件分岐、帯域幅など)
しかし、行ベースの分析は得られず、「カーネル」レベルの分析しか得られませんでした。(例: main_300_gpu カーネルは 10 秒使用) . そのため、コードをどこで修正する必要があるかを知るのに苦労しています。
ソースレベルでコードをプロファイリングする方法はありますか?
私は使用しています
PGI 15.7 (pgcc を使用)
CUDA7.0
NVIDIA GTX 960
Ubuntu 14.04 LTS x86_64