multidimensional-array - CUDA のデバイスメモリに 2D 配列を割り当てる

Question

Cudaのデバイスメモリに2D配列を(ホストとの間で)割り当てて転送するにはどうすればよいですか?

score 19 · Accepted Answer

私はこの問題の解決策を見つけました。アレイをフラット化する必要はありませんでした。

組み込みcudaMallocPitch()関数がその役割を果たしました。そして、cudaMemcpy2D()関数を使用してデバイスとの間で配列を転送することができました。

例えば

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

これにより、パラメータとして渡されたピッチでサイズa*bの2D配列が作成されます。

次のコードは、2D配列を作成し、要素をループします。それは容易にコンパイルされます、あなたはそれを使うかもしれません。

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}

score 3 · Accepted Answer

平坦化: 1 次元にします。ここでそれがどのように行われたかを見てください

score 2 · Accepted Answer

デバイスコードが速くなる可能性があります。スレッドをもっと活用してみてください。

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

次に、各スレッドが単一の要素を処理するように、適切なブロックとスレッドの割り当てを計算します。

multidimensional-array - CUDA のデバイス メモリに 2D 配列を割り当てる

3 に答える 3

Related

Reference

multidimensional-array - CUDA のデバイスメモリに 2D 配列を割り当てる