cuda - gpu_array の分散を計算するにはどうすればよいですか?

Question

2D gpu_array の分散を計算しようとしています。リダクションカーネルは良いアイデアのように思えます。

http://documen.tician.de/pycuda/array.html

ただし、このドキュメントは、リダクションカーネルが 2 つの配列を 1 つの配列にリダクションするだけであることを暗示しています。単一の 2D 配列を単一の値に縮小するにはどうすればよいですか?

score 3 · Accepted Answer

最初のステップは、この場合の分散を定義することだと思います。matlab では、2D 配列の分散関数は値のベクトル (1D 配列) を返します。しかし、単一値の分散が必要なように聞こえるので、他の人がすでに示唆しているように、おそらく最初に行うことは、2D配列を1Dとして扱うことです。C では、これを達成するために特別な手順は必要ありません。配列へのポインターがある場合は、1D 配列であるかのようにインデックスを付けることができます。1D index を使用して 2D 配列を処理する方法についてのヘルプは必要ないと思います。

それがあなたが求めている1D分散である場合、私は分散(x)=sum((x[i]-mean(x))^2)のような関数を想定しています。ここで、合計はすべてのiにわたっています。後です（ウィキペディアの記事を読んだことに基づいています）。これを 3 つのステップに分けることができます。

平均を計算します (これは古典的な縮約です。データセットに対して 1 つの値が生成されます。すべての要素を合計してから、要素の数で割ります)。
すべての i の値 (x[i]-mean)^2 を計算します。これは、入力データセットと同じサイズ (要素数) の出力データセットを生成する要素操作による要素です。
ステップ 2 で生成された要素の合計を計算します。これは、データセット全体に対して 1 つの値が生成されるため、別の古典的な削減です。

ステップ 1 と 3 はどちらも、配列のすべての要素を合計する古典的な削減です。ここでその根拠を説明するのではなく、このトピックに関する Mark Harris の優れた扱いと、いくつかのCUDA サンプルコードを紹介します。ステップ 2 では、カーネルコードを自分で理解できると思いますが、次のようになります。

#include <math.h>
    __global__ void var(float *input, float *output, unsigned N, float mean){

      unsigned idx=threadIdx.x+(blockDim.x*blockIdx.x);
      if (idx < N) output[idx] = __powf(input[idx]-mean, 2);
    }

リダクションと上記のコードを 1 つのカーネルに結合したい場合があることに注意してください。

cuda - gpu_array の分散を計算するにはどうすればよいですか?

1 に答える 1

Related

Reference