占有率は、1 つの Stream Multiprocessor でサポートされる最大ワープ数を超えるアクティブなワープ数として定義されます。1 つの SM で 4 つのブロックが実行されているとします。各ブロックには 320 のスレッド、つまり 10 のワープがあるため、1 つの SM で 40 のワープがあります。1 つの SM の最大ワープが 48 (CC 2.x) であると仮定すると、占有率は 40/48 です。
しかし、1 つの SM で合計 320 * 4 のスレッドが実行されており、1 つの SM には 48 個の CUDA コアしかありません。占有率が 100% ではないのはなぜですか? 私はすべてのCUDAコアを使用しています...
私は何かが欠けていると確信しています...