CUDA プログラミング ガイドで、CUDA デバイスのグローバル メモリが 32、64、または 128 ビットのトランザクションによってアクセスされることを読みました。それを知っていると、たとえば、float4 (128 ビット) のセットをメモリ内で互いに近づけることの利点はありますか? 私が理解しているように、float4がメモリに分散されているか、シーケンスに分散されているかに関係なく、トランザクションの数は同じになります。それとも、すべてのアクセスが 1 つの巨大なトランザクションにまとめられるのでしょうか?
質問する
108 次