memory - 各データが 128 ビット以上かかる場合、それらをメモリ内でグループ化する利点はありますか?

Question

CUDA プログラミングガイドで、CUDA デバイスのグローバルメモリが 32、64、または 128 ビットのトランザクションによってアクセスされることを読みました。それを知っていると、たとえば、float4 (128 ビット) のセットをメモリ内で互いに近づけることの利点はありますか? 私が理解しているように、float4がメモリに分散されているか、シーケンスに分散されているかに関係なく、トランザクションの数は同じになります。それとも、すべてのアクセスが 1 つの巨大なトランザクションにまとめられるのでしょうか?

score 3 · Accepted Answer

合体とは、ワープ内の個々のスレッドからのメモリ要求を 1 つのメモリトランザクションに結合することを指します。

1 つのメモリトランザクションは通常 128バイトのキャッシュラインであるため、8 つの128ビット(例: float4) の量で構成されます。

したがって、複数のスレッドが隣接する 128 ビット量を要求することには利点があります。これは、メモリに対する単一 (128 バイト) のキャッシュライン要求にまとめることができるためです。

memory - 各データが 128 ビット以上かかる場合、それらをメモリ内でグループ化する利点はありますか?

1 に答える 1

Related

Reference