.cu コードのコンパイル中に --ptax-options=-v を使用すると、次の結果が得られました。
ptxas info: Used 74 registers, 124 bytes smem, 16 bytes cmem[1]
私のカードの devQuery は次を返します。
rev: 2.0
name: tesla c2050
total shared memory per block: 49152
total reg. per block: 32768
ここで、これらのデータを次のように cuda 占有計算機に入力します。
1.) 2.0
1.b) 49152
2.) threads per block: x
registers per thread: 74
shared memory per block (bytes): 124
x*74<=32768 になるように x (ブロックあたりのスレッド数) を変更していました。たとえば、x の代わりに 128 (または 256) を入力します。占有計算機で必要なすべての値を正しく入力していますか? ありがとう。