私はコンピューティング機能 1.3 GPU を持っています。ドキュメントに基づいて、同じハーフ ワープのスレッドがワード サイズに応じて同じ 32、64、または 128 バイトのメモリ セグメントからバイトにアクセスすると、これらのメモリ アクセスは 1 つに結合されます。
ただし、cudaMallocPitch() を使用して割り当てられた 2 次元配列の場合、同じハーフワープのスレッドが連続するバイトにアクセスする場合、これらのバイトが同じメモリ セグメントに存在することが保証されますか?
グローバルメモリへのCUDA合体アクセスにも同様の質問がありますが、2D配列を備えた計算機能1.3 GPUはカバーしていません。