8 つのスレッドブロックがあり、GPU に 8 つの SM があるとします。では、GPU はどのようにしてこのスレッドブロックを SM に発行するのでしょうか?
いくつかのプログラムまたは記事で、幅優先の方法、つまり、この例では各 SM がスレッドブロックを実行することを示唆していることがわかりました。ただし、いくつかのドキュメントによると、GPU カーネルのレイテンシーが制限されている場合は、占有率を増やすことをお勧めします。可能であれば、8 つのスレッドブロックが 4 つ以下の SM で実行されると推測される場合があります。
どれが現実なのか気になります。前もって感謝します。