cuda - 共有変数に対して並行して動作するブロックとスレッドの最大数

翻译自：https://stackoverflow.com/questions/19721222 2013-11-01T05:16:32.993

1253 次

K2000 GPU カード (コンピューティング機能 3.0) で実行される GPU カーネル関数を考えると、次のようになります。

#define TILE_DIM 64
__global__ void PerformSomeOperations(float* g_A, float* g_B)
{
    __shared__ float BlockData[TILE_DIM][TILE_DIM];
    // Some Operation to be performed
}

単一のマルチプロセッサで並列実行できるブロックとスレッドの最大数を決定するにはどうすればよいですか? また、N個のブロックがある場合、これは各ブロックの共有メモリがNで割られることを意味しますか?

cuda - 共有変数に対して並行して動作するブロックとスレッドの最大数

1 に答える 1

Related

Reference