CUDAのプログラミング構造について勉強していたのですが、勉強して感じたことは、ブロックとスレッドを作成した後、この各ブロックが各ストリーミング マルチプロセッサに割り当てられます (たとえば、14 個のストリーミング マルチプロセッサを持つ GForce 560Ti を使用しているため、一度に 14 個のブロックをすべてのストリーミング マルチプロセッサに割り当てることができます)。しかし、このようないくつかのオンライン資料を調べていると、次のようになります。
http://moss.csc.ncsu.edu/~mueller/cluster/nvidia/GPU+CUDA.pdf
1 つのマルチプロセッサ上で複数のブロックを同時に実行できることが言及されています。私は基本的に、ストリーミング マルチプロセッサでのスレッドとブロックの実行について非常に混乱しています。ブロックの割り当てとスレッドの実行が完全に任意であることは知っていますが、ブロックとスレッドのマッピングが実際にどのように行われるかを知りたいので、同時実行が可能になります。