やや大きなCUDAアプリケーションがあり、達成されたGFLOPを計算する必要があります。浮動小数点演算の数を数える簡単でおそらく一般的な方法を探しています。
アセンブリ言語で事前定義されたfpoのリストを使用して、生成されたPTXコード(以下に示す)から浮動小数点演算をカウントすることは可能ですか?コードに基づいて、カウントを一般的にすることができますか?たとえば、add.s32 %r58, %r8, -2;
1つの浮動小数点演算としてカウントされますか?
例:
BB3_2:
.loc 2 108 1
mov.u32 %r8, %r79;
setp.ge.s32 %p1, %r78, %r16;
setp.lt.s32 %p2, %r78, 0;
or.pred %p3, %p2, %p1;
@%p3 bra BB3_5;
add.s32 %r58, %r8, -2;
setp.lt.s32 %p4, %r58, 0;
setp.ge.s32 %p5, %r58, %r15;
or.pred %p6, %p4, %p5;
@%p6 bra BB3_5;
.loc 2 112 1
ld.global.u8 %rc1, [%rd17];
cvt.rn.f32.u8 %f11, %rc1;
mul.wide.u32 %rd12, %r80, 4;
add.s64 %rd13, %rd7, %rd12;
ld.local.f32 %f12, [%rd13];
fma.rn.f32 %f14, %f11, %f12, %f14;
.loc 2 113 1
add.f32 %f15, %f15, %f12;
または、FPOを数えるはるかに簡単な方法があり、これは時間の無駄ですか?