memory - CUDA: コンピューティング機能 1.2 以降のメモリトランザクションサイズ

Question

すべて、「NVIDIA CUDA プログラミングガイド 2.0」セクション 5.1.2.1 から: 「Compute Capability 1.2 以降のデバイスでの結合」

最小番号のアクティブなスレッドによって要求されたアドレスを含むメモリセグメントを見つけます。セグメントサイズは、8 ビットデータの場合は 32 バイト、16 ビットデータの場合は 64 バイト、32、64、および 128 ビットデータの場合は 128 バイトです。 "

ここで疑問があります。各ハーフワープには 16 のスレッドがあるため、すべてのスレッドが 8 ビットデータにアクセスする場合、ハーフワープごとの合計サイズは 16 * 8 ビット = 128 ビット = 16 バイトになります。「ガイド」には「8ビットデータの場合は32バイト」と記載されています。半分の帯域幅が無駄になっているようです。私は正しく理解していますか？

ありがとうデリック

score 2 · Accepted Answer

はい。メモリアクセスは、そのメモリラインから実際に必要な量に関係なく、常に 32、64、または 128 バイトのチャンクになります。

アップデート：

質問: 16 ビットデータの 64 バイトをどのように説明しますか?

値: 1 バイトワードの場合は 32 バイト、2 バイトワードの場合は 64 バイト、上位バイトワードの場合は 128 バイトが、アクセスされるセグメントの最大サイズです。たとえば、各スレッドが 2 バイトのワードをフェッチし、アクセスが完全にアライメントされている場合、メモリアクセスは削減され、32 バイトのラインフェッチのみが使用されます。

「CUDA プログラミングガイド (v3.2)」のセクション G.3.2.2「Compute Capability 1.2 および 1.3 のデバイス」を確認してください。

CUDA PG v. 2.0 (およびおそらく CUDA 2.0 コンパイラ) を使用していたようです。それ以来、多くの改善 (特に: バグ修正) がありました。

memory - CUDA: コンピューティング機能 1.2 以降のメモリ トランザクション サイズ

1 に答える 1

Related

Reference

memory - CUDA: コンピューティング機能 1.2 以降のメモリトランザクションサイズ