cuda - CUDA サーフェスメモリのピーク帯域幅は?

Question

サーフェスメモリは、CUDA のテクスチャキャッシュに相当する書き込み専用です。

グローバルメモリと共有メモリからの読み取りに関する学術文献で、 NVIDIA GPUのピーク帯域幅の数値を見つけました。ただし、 CUDA メモリデバイスの書き込みスループットに関する情報はほとんどありません。

特に、Fermi GPU と Kepler GPU の CUDA サーフェスメモリの帯域幅 (既知の場合はレイテンシも) に関心があります。

score 2 · Accepted Answer

テクスチャ/サーフェス/グローバルメモリのレイテンシはほぼ同じで、すべてオフチップ DRAM に配置されているため、サーフェスメモリのピーク帯域幅は、GPU 仕様で示されているグローバルメモリと同じであると思います。

レイテンシーのタイミングを計るために、参照した論文では 1 つのスレッドのみを使用している場合があります。したがって、レイテンシを計算するのは簡単です

グローバルメモリ読み取りレイテンシ = 合計読み取り時間 / 読み取り回数

同様の方法で、サーフェス書き込みのタイミングを実装できます。しかし、for ループのオーバーヘッドは共有メモリのレイテンシと比較して無視できない可能性があるため、この論文に示されている共有メモリのレイテンシ測定にこの方法を適用することは合理的ではないと思います。

score 2 · Accepted Answer

コンピューティング機能 2.x および 3.x デバイスでは、表面書き込みは L1 キャッシュを通過し、グローバル書き込みと同じスループットと待機時間になります。

cuda - CUDA サーフェス メモリのピーク帯域幅は?