c - コードの一部をcudaで1回実行する

Question

GPUで静的ステートメントを実行できるかどうか疑問に思いました

これは私のコードの一部です

__global__ void run_state(float *oldv, float* newv, float* w, int t)
{
  int i = threadIdx.x;

  nextState(i, oldv, newv, w, t);


  newv[0]   = newv[1];
  newv[N+1] = newv[N];

}

ループして一度だけ実行した後newv[0] = newv[1];にnewv[N+1] = newv[N];実行できるかどうか疑問に思っていましたか？nextState

score 2 · Accepted Answer

あなたが何を達成したいのか正確にはわかりません（何ごとに1回実行しますか？）ので、いくつかの代替案を示します。

ブロックごとに 1回ステートメントを実行する場合は、スレッドインデックスをテストするだけで実行できます。

__syncthreads();
if ((threadIdx.x | threadIdx.y | threadIdx.z) == 0) {
    // statements that are only executed once per block
}
__syncthreads();

カーネル呼び出しごとにステートメントを 1 回実行する場合は、カーネルのブロックが特定の順序で実行されないため、ステートメントをいつ実行するかをもう少し具体的にする必要があります。

上記の例を単純に拡張すると、ステートメントがカーネル呼び出しごとに 1 回実行されるバージョンが得られますが、時間は指定されていません。

if ((threadIdx.x | threadIdx.y | threadIdx.z
     | blockIdx.x | blockIdx.y | blockIdx.z) == 0) {
    // statements that are executed once per kernel invocation,
    // at an unspecified time
}

追加のグローバルメモリ帯域幅の使用を犠牲にして、グローバルメモリでアトミック操作を使用してステートメントを実行するタイミングを指定することができます。パフォーマンスへの影響を制限するには、通常、これらのアトミック操作をブロックごとに 1 回だけ実行することをお勧めします。

最初のブロックがそれに到達するとすぐにステートメントを実行したい場合は、グローバルフラグの簡単なテストで十分です。

__global__ volatile unsigned int statementHasExecuted;

...

__syncthreads();
if ((threadIdx.x | threadIdx.y | threadIdx.z) == 0) {
    unsigned int state = atomicMin((unsigned int*)&statementHasExecuted, 1);
    if (state == 0) {
        // statements that are executed once per kernel invocation,
        // as soon as the first block reaches the statement

        // now make the results visible to the other blocks:
        __threadfence();
        // and signal that we are done:
        atomicMin((unsigned int*)&statementHasExecuted, 2);
    } else {
        while (state < 2) {
            // busy wait until execution of statement in other block has finished:
            state = statementHasExecuted;
        }
    }
}
__syncthreads();

statementHasExecutedカーネルを起動するたびにゼロにリセットする必要があります。

あなたが求めているのは、他のすべてのブロックが終了した後にのみ実行されるコードの一部である、逆のケースかもしれません。プログラミングガイドの付録 B.5「メモリフェンス関数」には、このためのサンプルコードが示されています。

(すべてのコードはブラウザーで作成され、テストされていないことに注意してください。エラーが含まれている可能性があります)。

score 0 · Accepted Answer

最終的な作業を行うスレッドを 1 つ指定します。例えば：

__global__ void run_state(float *oldv, float* newv, float* w, int t)
{
  int i = threadIdx.x;

  nextState(i, oldv, newv, w, t);

  if (i == 0) {
    newv[0]   = newv[1];
    newv[N+1] = newv[N];
  }
}

c - コードの一部をcudaで1回実行する

2 に答える 2

Related

Reference