ゼロコピーを利用した CUDA アプリケーションのパフォーマンスを分析した経験のある人はいますか (ここを参照: Default Pinned Memory Vs Zero-Copy Memory ) メモリ モデル?
ゼロコピー機能を使用するカーネルがあり、NVVP を使用すると、次のように表示されます。
平均的な問題サイズでカーネルを実行すると、0.7% の命令リプレイ オーバーヘッドが発生するため、大きな問題はありません。そして、この 0.7% はすべてグローバル メモリ リプレイ オーバーヘッドです。
問題のサイズを実際に大きくすると、95.7% の命令リプレイ オーバーヘッドが発生します。これはすべて、グローバル メモリのリプレイ オーバーヘッドによるものです。
ただし、通常の問題サイズのカーネル実行と非常に大きな問題サイズのカーネル実行の両方のグローバル ロード効率とグローバル ストア効率は同じです。この指標の組み合わせをどうするかはよくわかりません。
主に確信が持てないのは、NVVP のどの統計が、ゼロ コピー機能で何が起こっているかを確認するのに役立つかということです。どのタイプの統計を見ればよいかについてのアイデアはありますか?