すべて、「NVIDIA CUDA プログラミング ガイド 2.0」セクション 5.1.2.1 から: 「Compute Capability 1.2 以降のデバイスでの結合」
最小番号のアクティブなスレッドによって要求されたアドレスを含むメモリ セグメントを見つけます。セグメント サイズは、8 ビット データの場合は 32 バイト、16 ビット データの場合は 64 バイト、32、64、および 128 ビット データの場合は 128 バイトです。 "
ここで疑問があります。各ハーフ ワープには 16 のスレッドがあるため、すべてのスレッドが 8 ビット データにアクセスする場合、ハーフ ワープごとの合計サイズは 16 * 8 ビット = 128 ビット = 16 バイトになります。「ガイド」には「8ビットデータの場合は32バイト」と記載されています。半分の帯域幅が無駄になっているようです。私は正しく理解していますか?
ありがとうデリック