K2000 GPU カード (コンピューティング機能 3.0) で実行される GPU カーネル関数を考えると、次のようになります。
#define TILE_DIM 64
__global__ void PerformSomeOperations(float* g_A, float* g_B)
{
__shared__ float BlockData[TILE_DIM][TILE_DIM];
// Some Operation to be performed
}
単一のマルチプロセッサで並列実行できるブロックとスレッドの最大数を決定するにはどうすればよいですか? また、N個のブロックがある場合、これは各ブロックの共有メモリがNで割られることを意味しますか?