CUDA
プロファイラーを使用するnvvp
と、命令に関連する「オーバーヘッド」がいくつかあります。次に例を示します。
- 分岐分岐オーバーヘッド;
- 共有/グローバル メモリのリプレイ オーバーヘッド。と
- ローカル/グローバル キャッシュ リプレイ オーバーヘッド。
私の質問は次のとおりです。
- これらのオーバーヘッドの原因は何ですか?そして
- それらはどのように計算されますか?
- 同様に、Global Load/Store Efficiency はどのように計算されますか?
添付ファイル: これらのオーバーヘッドを計算するすべての数式は、CUDA5 ツールキットに含まれている「CUDA Profiler ユーザー ガイド」に記載されています。