cuda - CUDA の最適なメモリアクセスレイアウト: グローバルメモリの合体と共有メモリバンクの競合

翻译自：https://stackoverflow.com/questions/13024204 2012-10-23T05:44:19.810

1184 次

CUDA における最も便利なグローバルおよび共有メモリアクセスレイアウトに関して、いくつか疑問があります。

グローバルメモリ

1) 次のメモリアドレス(0,0)、(0,1)、(1,0)および(1,1)は、CPU メモリと GPU メモリでどのように配置されますか? 言い換えれば、それらが格納される順序は何ですか?

2) の行インデックスと列インデックスは(m, n)どれですか?

3) 列優先順または行優先順で要素にアクセスすることによって、グローバルメモリの結合が達成されますか?

共有メモリ

1) 銀行の競合はどのように発生するか、または発生しないか? 例/ケースを使用してお知らせください。

2) 共有メモリと L1 を構成するコマンドは何64Kですか? また、そのコマンドはどこにありますか?

cuda - CUDA の最適なメモリ アクセス レイアウト: グローバル メモリの合体​​と共有メモリ バンクの競合