たとえば、マトリックスを操作している場合、ほとんどの場合、およびカーネルm x nに渡す必要があります。mn
ポイントの総数も知る必要がある場合はN = m*n、パラメーターとして渡すN(そして帯域幅を消費する) か、各スレッドのカーネルでローカルに計算するNN(実際には 1 回だけ計算する必要があるにもかかわらず、多くの重複操作の処理能力を消費する) 必要があります。 ?
ここでは、大規模なデータ セットのコレクションに対して何千回も起動されるカーネルについて話しているため、実際にパフォーマンスを向上させようとしています。
Stride も別の例です。カーネルを起動する前に TBP と BPG がわかっているため、事前に計算できます。