python - GPUのスレッドレジスタに配列を定義するNumbapro cuda python

Question

np.arrayまたはまたはnp.zerosまたはnp.empty(shape, dtype)を使用してホスト内にグローバルデバイス関数を作成し、コピーする方法を知ってcuda.to_deviceいます。

また、共有配列を次のように宣言することもできますcuda.shared.array(shape, dtype)

しかし、gpu関数内の特定のスレッドのレジスタに一定サイズの配列を作成する方法.

試してみcuda.device_arrayましnp.arrayたが、何も機能しませんでした。

私は単にスレッド内でこれをやりたい -

x = array(CONSTANT, int32) # should make x for each thread

score 0 · Accepted Answer

Numbapro はnumba.cuda.local.array(shape, type)、スレッドローカル配列の定義をサポートしています。

CUDA C と同様に、配列がローカルメモリで定義されるかレジスタで定義されるかは、配列の使用パターンに基づくコンパイラの決定です。ローカル配列のインデックスパターンが静的に定義されていて、十分なレジスタ空間がある場合、コンパイラはレジスタを使用して配列を格納します。それ以外の場合は、ローカルメモリに格納されます。詳細については、この質問と回答のペアを参照してください。

python - GPUのスレッドレジスタに配列を定義するNumbapro cuda python

1 に答える 1

Related

Reference