したがって、次の合計メモリ有効帯域幅を計算する方法を知りたいです。
cublasSdot(handle, M, devPtrA, 1, devPtrB, 1, &curesult);
その関数はどこへcublas_v2.h
この関数は 0.46 ミリ秒で実行され、ベクトルは10000 * sizeof(float)
私は持ってい((10000 * 4) / 10^9 )/0.00046 = 0.086 GB/s
ますか?
cublasSdot関数の中身が分からず、必要かどうかも分からないので気になっています。