たとえば、マトリックスを操作している場合、ほとんどの場合、およびカーネルm x n
に渡す必要があります。m
n
ポイントの総数も知る必要がある場合はN = m*n
、パラメーターとして渡すN
(そして帯域幅を消費する) か、各スレッドのカーネルでローカルに計算するN
N
(実際には 1 回だけ計算する必要があるにもかかわらず、多くの重複操作の処理能力を消費する) 必要があります。 ?
ここでは、大規模なデータ セットのコレクションに対して何千回も起動されるカーネルについて話しているため、実際にパフォーマンスを向上させようとしています。
Stride も別の例です。カーネルを起動する前に TBP と BPG がわかっているため、事前に計算できます。