cuda - ブロックあたりのスレッドに関する CUDA パフォーマンス

Question

私は興味のためにCUDAを試しています。ある実験では、for ループで 1000 万回しか実行されない小さなカーネルがありました。1 ブロックを送信してから、ブロックあたりのスレッド数を 1 から 1024 に増やしました。次に、実行をプロットして、それがどのように変化するかを確認しました。その結果、ブロックあたり約 350 スレッドで急激に上昇し、その後、緩やかな瞬間に急激に上昇します。ブロックあたり 1024 スレッドで実行時間は 2 倍になり、少なくとも 1 つのスレッドがブロックされたことを示します。実際のグラフは、上昇するはしごのようなものです。私が理解したいのは、これらの上昇がどのような数に依存するのかということです。SM、cudaコアなどの数について理解しようとしています。

8SM、SM あたり 48 コア、SM あたり 2 つのワープスケジューラで GeForce 560 Ti を使用しています。

score 2 · Accepted Answer

ブロックあたり350スレッドで急激に上昇する理由の1つは、ブロックが大量のリソースを消費するため、SMが一度に複数のブロックを処理できないことです。CUDA Occupancy Calculatorを使用すると、カーネルのリソース使用量に基づいて、一度に1つのSMによって処理されるブロックの数を確認できます。

cuda - ブロックあたりのスレッドに関する CUDA パフォーマンス

1 に答える 1

Related

Reference