cuda - CUDA Fermi のアーキテクチャ: メモリ構造

Question

CUDA Fermi のアーキテクチャについて質問があります。Fermi のアーキテクチャでは、グローバルメモリのアクセスが共有メモリのように高速であることをどこかで読んだことがあります。

では、(「フェルミ以前」の GPU とは異なり) (大きな) レイテンシなしでグローバルメモリ上のデータにアクセスできるというのは本当ですか?

Nvidia Tesla GPU を使用せずにコードをプログラミングしているという理由だけで、それを知ることは非常に重要です (大学の研究室にあり、夏の間はアクセスできません...)。

score 1 · Accepted Answer

本当じゃない。Fermi でのグローバルメモリアクセスは、共有メモリアクセスに比べて比較的長くなります。ただし、キャッシュが原因で、キャッシュを直接ヒットしてレイテンシを短縮することができます。これは、理想的とは言えないメモリアクセスパターン (わずかにミスアラインされたアクセスなど) で特に役立ちます。

均一なメモリアドレッシングは、上記とは関係なく、まったく別のものです。均一なメモリアドレス指定により、指定されたメモリポインタがグローバルまたは共有 (またはマップされた固定ホストまたは他の GPU) メモリを参照している場合、GPU は実行時に差し引くことができます。Fermi より前のカードでは、メモリーのタイプはコンパイル時に推定可能でなければなりませんでした。

cuda - CUDA Fermi のアーキテクチャ: メモリ構造

1 に答える 1

Related

Reference