再帰ループで配列を計算するコードをCUDAで書く必要があります。この再帰ループのいくつかの中間ステップをその前に事前計算する可能性があります。つまり、ループ内の一部の計算を回避する定数配列とスカラーを割り当てます。
最初のアイデアは、スカラー パラメーターが CPU から GPU に毎回渡される一方で、定数配列をグローバル メモリに格納することでした (ここで提案されているように: CUDA and shared variables between different global functions )。
GPU 定数メモリの方が高速であるはずなので、使用してみたいと思います。ただし、私が見つけたいくつかのサンプル コードは、ホストから定数メモリを割り当てる方法を示しています。GPU から一定のメモリを割り当てること、つまりその値を計算することは可能ですか (グローバル メモリで行うように)? サンプルコードを教えてください。
編集: 多くの定数配列を割り当てることができたので、この状況ではテクスチャ メモリを使用する方がよいかもしれません。GPU からそこにメモリを割り当てる方法に関するサンプル コードはありますか?