私は興味のためにCUDAを試しています。ある実験では、for ループで 1000 万回しか実行されない小さなカーネルがありました。1 ブロックを送信してから、ブロックあたりのスレッド数を 1 から 1024 に増やしました。次に、実行をプロットして、それがどのように変化するかを確認しました。その結果、ブロックあたり約 350 スレッドで急激に上昇し、その後、緩やかな瞬間に急激に上昇します。ブロックあたり 1024 スレッドで実行時間は 2 倍になり、少なくとも 1 つのスレッドがブロックされたことを示します。実際のグラフは、上昇するはしごのようなものです。私が理解したいのは、これらの上昇がどのような数に依存するのかということです。SM、cudaコアなどの数について理解しようとしています。
8SM、SM あたり 48 コア、SM あたり 2 つのワープ スケジューラで GeForce 560 Ti を使用しています。