c - CUDA: グローバルメモリの連続するバイトへのハーフワープアクセスは結合されることが保証されていますか?

Question

私はコンピューティング機能 1.3 GPU を持っています。ドキュメントに基づいて、同じハーフワープのスレッドがワードサイズに応じて同じ 32、64、または 128 バイトのメモリセグメントからバイトにアクセスすると、これらのメモリアクセスは 1 つに結合されます。

ただし、cudaMallocPitch() を使用して割り当てられた 2 次元配列の場合、同じハーフワープのスレッドが連続するバイトにアクセスする場合、これらのバイトが同じメモリセグメントに存在することが保証されますか?

グローバルメモリへのCUDA合体アクセスにも同様の質問がありますが、2D配列を備えた計算機能1.3 GPUはカバーしていません。

score 2 · Accepted Answer

はい-cudaMallocPitch()主に、合体動作が1つの行から次の行まで持続することを確認するために存在します。合体の基準はワープごとであるため、よりきめ細かく、2D配列の行内の連続するバイトに関係します。

オペランドサイズは少なくとも32ビットである必要があることに注意してください。そうでない場合、合体はまったく機能しません。

c - CUDA: グローバル メモリの連続するバイトへのハーフ ワープ アクセスは結合されることが保証されていますか?