performance - CUDA プロファイラー nvvp で、「共有/グローバルメモリリプレイオーバーヘッド」とはどういう意味ですか? どのように計算されますか？

Question

CUDAプロファイラーを使用するnvvpと、命令に関連する「オーバーヘッド」がいくつかあります。次に例を示します。

分岐分岐オーバーヘッド;
共有/グローバルメモリのリプレイオーバーヘッド。と
ローカル/グローバルキャッシュリプレイオーバーヘッド。

私の質問は次のとおりです。

これらのオーバーヘッドの原因は何ですか?そして
それらはどのように計算されますか？
同様に、Global Load/Store Efficiency はどのように計算されますか?

添付ファイル: これらのオーバーヘッドを計算するすべての数式は、CUDA5 ツールキットに含まれている「CUDA Profiler ユーザーガイド」に記載されています。

score 2 · Accepted Answer

あなたの質問に対する答えのいくつかをここで見つけることができます：

CUDA プロファイラーがリプレイされた命令を示すのはなぜですか: 82% != グローバルリプレイ + ローカルリプレイ + 共有リプレイ?

Replayed Instructions (%)カーネルの実行中に再生された命令の割合を示します。リプレイされた命令は、ハードウェアによって実際に発行された命令の数と、カーネルによって実行される命令の数との差です。理想的には、これはゼロであるべきです。これは、100 * (発行された命令 - 実行された命令) / 発行された命令として計算されます。

グローバルメモリリプレイ (%)グローバルメモリアクセスが原因でリプレイされた命令の割合。これは、100 * (l1 グローバルロードミス) / 発行された命令として計算されます。

Local memory replay (%)ローカルメモリアクセスが原因で発生した命令のリプレイの割合。これは、100 * (l1 ローカルロードミス + l1 ローカルストアミス) / 発行された命令として計算されます。

Shared bank conflict replay (%)共有メモリバンクの競合が原因でリプレイされた命令の割合。これは、100 * (l1 共有競合)/発行された命令として計算されます。

performance - CUDA プロファイラー nvvp で、「共有/グローバル メモリ リプレイ オーバーヘッド」とはどういう意味ですか? どのように計算されますか？

1 に答える 1

Related

Reference

performance - CUDA プロファイラー nvvp で、「共有/グローバルメモリリプレイオーバーヘッド」とはどういう意味ですか? どのように計算されますか？