cuda - CUDA: Shuffle 命令を使用した K40 でのスレッドブロックレベルのブロードキャスト

Question

indirectJ2[MAX_SUPER_SIZE]共有配列です。

私のcudaデバイスカーネルには、次のステートメントが含まれています（スレッドブロック内のすべてのスレッドによって実行されます）：

int nnz_col = indirectJ2[MAX_SUPER_SIZE - 1];

これにより、銀行の競合が発生すると思われます。

ケプラー GPU の新しいシャッフル命令を使用して、上記のスレッドブロックレベルのブロードキャストを効率的に実装する方法はありますか? ワープレベルでの仕組みを理解しています。シャッフル命令を超えた他のソリューション (たとえば、CUB の使用など) も歓迎します。

score 2 · Accepted Answer

K40 では、そのコード行にバンク競合はありません。共有メモリアクセスは、すでにブロードキャストメカニズムを提供しています。プログラミングガイドより引用

「ワープの共有メモリ要求は、同じ 32 ビットワード内、またはインデックス i と j が同じ 64 ワードアラインメントにある 2 つの 32 ビットワード内のサブワードにアクセスする 2 つのスレッド間でバンク競合を生成しません。セグメント (つまり、最初のインデックスが 64 の倍数であるセグメント) で、j=i+32 の場合 (2 つのサブワードのアドレスが同じバンクにある場合でも): その場合、読み取りアクセスの場合、 32 ビットのワードは、要求元のスレッドにブロードキャストされます」

スレッドブロックレベルでの共有メモリバンクの競合などの概念はありません。バンクの競合は、そのワープ内の単一の命令に対して、単一のワープから発生する共有メモリ要求によって生成されるアクセスパターンにのみ関係します。

必要に応じて、単純なテストカーネルを作成し、プロファイラーメトリック(例: shared_replay_overhead) を使用して、共有メモリバンクの競合をテストできます。

ワープシャッフルメカニズムは、1 つのワープを超えることはありません。したがって、スレッドブロック内の複数のワープに単一の数量をブロードキャストできる短いシャッフルのみのシーケンスはありません。共有メモリを使用して、ワープ内のすべてのスレッドに単一の数量への直接アクセスを提供できます。あなたはすでにそれをやっています。

グローバルメモリ、__constant__メモリ、およびカーネルパラメータをすべて使用して、スレッドブロック内のすべてのスレッドに同じ値を「ブロードキャスト」することもできます。

cuda - CUDA: Shuffle 命令を使用した K40 でのスレッド ブロック レベルのブロードキャスト

1 に答える 1

Related

Reference

cuda - CUDA: Shuffle 命令を使用した K40 でのスレッドブロックレベルのブロードキャスト