cuda - 「ブロックが複数の MP に分割されることはありません。」を理解する方法は?

Question

CUDA については、「ブロックが複数の MP にまたがって分割されることはない」ということは理解しています。(http://llpanorama.wordpress.com/2008/06/11/threads-and-blocks-and-grids-oh-my/)。

これをテストするために、非常に大きなブロックサイズをカーネルに割り当てました。

__global__ void dummy()
{
}

int main()
{
        int N=21504*40000; //21504 is the total threads I found for my Tesla M2070
        dim3 grids(1,2);
        dim3 thres(N,N);
        dummy<<<grids,thres>>>();
        return 0;
}

ただし、コンパイルエラーや実行時エラーは発生せず、何が起こっているのかわかりません...

score 2 · Accepted Answer

dummy<<<>>> 呼び出しの後に cudaGetLastError() を追加すると、CUDA Launch Failure エラーが発生します (cudaGetErrorString(err_code) を使用してエラーコードを文字列に変換できます)。

score 0 · Accepted Answer

これらのエラーはコンパイルエラーではなく、実行後に実行時エラーが発生します。文を理解するには、アーキテクチャを理解する必要があります。これは、1 つの MP (SM) の共有メモリを介して同じスレッドブロックに配置されたスレッドの通信を高速化するように設計されています。したがって、それらはすべて同じ SM に常駐し、ディスパッチされません。

cuda - 「ブロックが複数の MP に分割されることはありません。」を理解する方法は?

2 に答える 2

Related

Reference