arrays - CUDAカーネルで、配列を「ローカルスレッドメモリ」に格納するにはどうすればよいですか？

Question

CUDAで小さなプログラムを開発しようとしていますが、遅いのでテストをして少しググってみました。単一の変数はデフォルトでローカルスレッドメモリ内に格納されますが、配列は通常は格納されないことがわかりました。そういうわけで、実行するのにとても時間がかかるのだと思います。ここで、ローカルスレッドメモリは少なくとも16KBである必要があり、配列は52文字の長さであるため、ローカルメモリに格納する方法はありますか（構文をお願いします:)）。

次のようなものではありません：

__global__ my_kernel(int a)
{
  __local__ unsigned char p[50];
}

score 11 · Accepted Answer

必要なのはこれだけです：

__global__ my_kernel(int a)
{
    unsigned char p[50];
    ........
}

必要に応じて、コンパイラはこれをスレッドローカルメモリに自動的にスピルします。ただし、ローカルメモリは GPU から離れた SDRAM に保存され、グローバルメモリと同じくらい遅いことに注意してください。したがって、これによりパフォーマンスが向上することを期待している場合は、がっかりする可能性があります.....

score -1 · Accepted Answer

ローカルメモリ空間とレジスタメモリ空間を混同しています。

単一変数と一定サイズの配列は、チップ上のレジスタ空間に自動的に保存され、読み取りと書き込みのコストはほとんどかかりません。

マルチプロセッサごとのレジスタの量を超えると、それらはローカルメモリに格納されます。

ローカルメモリはグローバルメモリ空間にあり、読み取り操作と書き込み操作の帯域幅は同じです。

#DEFINE P_SIZE = 50

__global__ void kernel()
{
    unsigned char p[P_SIZE];
}

score -1 · Accepted Answer

お探しのキーワードは__shared__. 大きな配列は共有メモリ空間に収まりませんが、コンパイラはこの場合のように小さな固定サイズの配列に共有メモリを使用する必要があります。__shared__キーワードを使用して、これを確実に行うことができます。ブロックの共有メモリの最大量を超えると、コンパイル時エラーが発生します。

arrays - CUDAカーネルで、配列を「ローカルスレッドメモリ」に格納するにはどうすればよいですか？

5 に答える 5

Related

Reference