1

最近の nVIDIA GPU uarchitectures では、単一のストリーミング マルチプロセッサが 4 つのサブユニットに分割されているようです。それぞれに、整数演算、32 ビット フロップ、64 ビット フロップ、ロード/ストアなど、さまざまな機能単位に対応する 8 つの「正方形」の水平または垂直の「バー」があります。1 つのワープ スケジューラが、そのような「クォーター SM」ごとに関連付けられているようです。

ここに画像の説明を入力

現在、CUDA プログラミング モデルでは、各ワープのスレッド (= 32 スレッド) は一緒に命令ロックされています。ただし、実際に作業を実行する場合、たとえばワープの後半または後半のスレッドのみがアクティブな状況では、これらのサブワープを 2 つまたは 3 つのクォーター SM にスケジュールし、残りのクォーターをスケジュールすることはできますか? -SMは他の仕事をしていますか?

4

1 に答える 1