python-3.x - ローカルおよび共有メモリと比較して、Numba がデバイスに割り当てることができる定数メモリはどのくらい速いですか?

Question

Numba のドキュメントで参照されている、いわゆるコンスタントメモリのパフォーマンスについて明確にわかりません。

https://numba.pydata.org/numba-doc/dev/cuda/memory.html#constant-memory

このメモリのサイズ制限、他のメモリタイプと比較した場合の高速/低速、およびそれを使用する際の落とし穴があるかどうかについて興味があります。

ありがとうございました！

score 2 · Accepted Answer

これは、CUDA 対応デバイスの定数メモリに関する一般的な質問です。公式の CUDA プログラミングガイドとここに記載されている情報を見つけることができます。

デバイスには合計 64 KB の定数メモリがあります。定数メモリ空間はキャッシュされます。その結果、定数メモリからの読み取りは、キャッシュミスの場合にのみ、デバイスメモリからの 1 つのメモリ読み取りにコストがかかります。それ以外の場合は、定数キャッシュからの読み取りが 1 回だけかかります。ワープ内のスレッドによる異なるアドレスへのアクセスはシリアル化されるため、コストはワープ内のすべてのスレッドによって読み取られる一意のアドレスの数に比例して増加します。そのため、一定のキャッシュは、同じワープ内のスレッドがいくつかの異なる場所にのみアクセスする場合に最適です。ワープのすべてのスレッドが同じ場所にアクセスする場合、定数メモリはレジスタアクセスと同じくらい高速になります。

これが他のメモリタイプとどのように比較されるかについて、ここに私の短い答えがあります. 詳細については、次のページをお読みください。

レジスタ: スレッドプライベートオンチップ読み取り + 書き込みメモリ。GPU で最速のメモリ空間と見なすことができます。
ローカルメモリ: スレッドプライベートオフチップ読み取り + 書き込みメモリ。誤解を招く名前にもかかわらず、グローバルメモリと物理的に同じ場所にあります。したがって、その高いレイテンシ。
グローバルメモリ: レイテンシが高く、グローバルスコープを持つ最大のメモリであり、読み取りと書き込みのアクセス許可を持つオフチップでもあります。
コンスタントメモリ: ワープのすべてのスレッドが同じ場所にアクセスする場合、レジスタと同じ速さでスレッドがアクセスできる 64 KB に制限されたオフチップキャッシュ読み取り専用メモリ。
共有メモリ: オンチップ、低レイテンシ、マルチプロセッサあたりの限られたスペースでの読み取り + 書き込み (デバイスの計算能力に応じて 48 KB から 164 KB)。
テクスチャメモリ: ハードウェアフィルタリングなどの独自の機能をサポートする 2D 空間局所性用に最適化されたオンチップキャッシュ読み取り専用メモリ。
固定 (ページロック) メモリ: 明示的なデバイスメモリではありません。CPU コードと GPU コードの両方から直接アクセスでき、CPU/GPU 間のデータ転送を最大化し、オーバーラップするために使用されます。

これらの記憶には、さまざまな範囲、寿命、用途があります。質問で言及した Numba ページでは基本について説明していますが、公式の CUDA プログラミングガイドにはさらに多くの詳細があります。結局のところ、各メモリをいつ使用するかという質問に対する答えは、アプリケーションに大きく依存します。

python-3.x - ローカルおよび共有メモリと比較して、Numba がデバイスに割り当てることができる定数メモリはどのくらい速いですか?

1 に答える 1

Related

Reference