CUDA における最も便利なグローバルおよび共有メモリ アクセス レイアウトに関して、いくつか疑問があります。
グローバルメモリ
1) 次のメモリ アドレス(0,0)
、(0,1)
、(1,0)
および(1,1)
は、CPU メモリと GPU メモリでどのように配置されますか? 言い換えれば、それらが格納される順序は何ですか?
2) の行インデックスと列インデックスは(m, n)
どれですか?
3) 列優先順または行優先順で要素にアクセスすることによって、グローバル メモリの結合が達成されますか?
共有メモリ
1) 銀行の競合はどのように発生するか、または発生しないか? 例/ケースを使用してお知らせください。
2) 共有メモリと L1 を構成するコマンドは何64K
ですか? また、そのコマンドはどこにありますか?