cuda - 共有メモリへのアクセスのレイテンシ

Question

以下の 2 つの状況の間でどちらのレイテンシが長いか、

データはグローバルメモリから共有メモリに入力され、すべてのスレッドが同時に共有メモリにアクセスします。複数のスレッドがアクセスする場合、データは同じである可能性があります。
すべてのスレッドがグローバルメモリにアクセスしますが、データは隣接しています。

score 3 · Accepted Answer

各値に 1 回だけアクセスする場合は、共有メモリを使用しても何も得られません。

共有メモリ内の値はブロック内でのみ有効であるため、各ブロック内の 1 つ以上のスレッドがグローバルメモリから値をロードする必要があります。したがって、グローバルメモリアクセスを回避することはできません。

計算能力 >= 2.0 (Fermi) のデバイスを使用している場合、グローバルメモリから読み取られた値は L1 および L2 キャッシュに自動的にキャッシュされます。L1 のレイテンシは共有メモリと同じです。

レイテンシは、アクセスしているメモリに依存する固定値です。変わりません。レイテンシは、グローバルメモリよりも共有メモリの方が常にはるかに低くなります。

あなたが本当に求めているのは、どのタイプのアクセスが最高のメモリスループットをもたらすかということだと思います。各値を 1 回だけ使用する場合は、ケース (2) で最高のスループットが得られます。値を再利用し、CC >= 2.0 を使用する場合、L1 にキャッシングを処理させると、最高のスループットが得られる可能性があります。CC < 2.0 で値を再利用する場合、共有メモリを使用すると最高のスループットが得られます。

ケース (1) は、バンクの競合を引き起こす場合と引き起こさない場合がありますが、共有メモリに既に格納されている値についてはスループットが向上します。

ケース (2) は、グローバルメモリの最適なアクセスパターンを示しています。

score 1 · Accepted Answer

おそらく、私は2つのケースの違いを理解していません。しかし、もしそうなら：

ハードウェアアーキテクチャで許可されている場合は、2 番目の方法の方が高速です。たとえば、並列レジスタを備えたマルチコアマシンの場合です。2 番目のケースでは、純粋なソフトウェアの観点からでも、インターリーブによる競合状態などの懸念から、データをスレッドセーフにする必要がないことに注意してください。

次のように考えてください。

ケース 2:

5 つのディナーを提供する大きなテーブルがあり、それを食べる子供が 5 人います。同期は必要ありません。

ケース 1:

たとえば、3 つのテーブルと 3 つのディナーがあります。2 人の子供が同じ皿から食べなければならない場合があるため、お互いにぶつからないように動きを同期させる必要がある場合があります。同期とは遅延を意味します。

cuda - 共有メモリへのアクセスのレイテンシ

以下の 2 つの状況の間でどちらのレイテンシが長いか、

2 に答える 2

Related

Reference