memory-management - CUDA - GPU から定数/テクスチャメモリを割り当てる

Question

再帰ループで配列を計算するコードをCUDAで書く必要があります。この再帰ループのいくつかの中間ステップをその前に事前計算する可能性があります。つまり、ループ内の一部の計算を回避する定数配列とスカラーを割り当てます。

最初のアイデアは、スカラーパラメーターが CPU から GPU に毎回渡される一方で、定数配列をグローバルメモリに格納することでした (ここで提案されているように: CUDA and shared variables between different global functions )。

GPU 定数メモリの方が高速であるはずなので、使用してみたいと思います。ただし、私が見つけたいくつかのサンプルコードは、ホストから定数メモリを割り当てる方法を示しています。GPU から一定のメモリを割り当てること、つまりその値を計算することは可能ですか (グローバルメモリで行うように)? サンプルコードを教えてください。

編集: 多くの定数配列を割り当てることができたので、この状況ではテクスチャメモリを使用する方がよいかもしれません。GPU からそこにメモリを割り当てる方法に関するサンプルコードはありますか?

score 2 · Accepted Answer

最初の質問に答えるには:「GPU から一定のメモリを割り当てることは可能ですか」。短い答えはイエスです。他の人が答えたように、データをデバイスからデバイスの定数メモリにコピーします。

ここから、問題に必要なアクセスパターンとデータ量を考慮する必要があります。

定数メモリの場合、使用可能なメモリの量は 65536 バイトで、ワープ内のすべてのスレッドが同時に同じ要素にアクセスする場合、データはブロードキャストされます。ただし、64KB のメモリでは十分ではありませんでした。

テクスチャメモリには、フィルタリングやキャッシュされる 2D 空間局所性などの特別な機能があります。そのため、3x3 ウィンドウの一般的なフィルタにテクスチャメモリを使用するのが一般的な使用例です。

最後に、データを更新して一部のカーネル間で使用する必要がある場合、選択肢はグローバルメモリの使用になります。さらに、読み取り/書き込みテクスチャメモリとして機能するサーフェスメモリ (CUDA C Programming Guire、第 3.2.10.2 章) を使用できます。

「再帰ループで配列を計算する CUDA でコードを作成する必要がある」の段階にあるため、最初にグローバルメモリを試して、将来の改善のベースを取得する必要があります。カーネルが動作すると、GPU メモリの最大のパフォーマンスを得るために、どのアクセスを別の方法で再配置または分散できるかがわかります。

最後に、新しい Fermi および Kepler アーキテクチャには、グローバルメモリアクセス用の L1 および L2 キャッシュ階層が組み込まれていることを考慮してください。これにより、L1/L2 キャッシュの量が大きくなるため、ランダムアクセスパターンが軽減され、テクスチャメモリよりも優れたパフォーマンスを発揮することさえあります。

最後に、CUDA SDK で多くのサンプルコードを見つけることができます。

score 1 · Accepted Answer

ここで読むことができるようcudaMemcpyToSymbolに、cudaMemcpyDeviceToDeviceフラグを使用すると、gpu から定数メモリにデータを直接コピーできるはずです。ただし、グローバルメモリの場合のように定数メモロイの日付を編集することはできません。そこから読み取ることしかできません。

score 0 · Accepted Answer

ホストから定数メモリの読み書きが可能です。デバイスから定数メモリを読み取ることしかできませんでした。

memory-management - CUDA - GPU から定数/テクスチャ メモリを割り当てる

3 に答える 3

Related

Reference

memory-management - CUDA - GPU から定数/テクスチャメモリを割り当てる