CUDA については、「ブロックが複数の MP にまたがって分割されることはない」ということは理解しています。(http://llpanorama.wordpress.com/2008/06/11/threads-and-blocks-and-grids-oh-my/)。
これをテストするために、非常に大きなブロック サイズをカーネルに割り当てました。
__global__ void dummy()
{
}
int main()
{
int N=21504*40000; //21504 is the total threads I found for my Tesla M2070
dim3 grids(1,2);
dim3 thres(N,N);
dummy<<<grids,thres>>>();
return 0;
}
ただし、コンパイル エラーや実行時エラーは発生せず、何が起こっているのかわかりません...