複数のGPUに分割されたチャンク(N * N / p)でCUFFTを実行していますが、パフォーマンスの計算について質問があります。まず、私がそれをどのように行っているかについて少し:
- N * N/pチャンクを各GPUに送信します
- pGPUの各行のバッチ1-DFFT
- N * N/pチャンクをホストに戻す-データセット全体で転置を実行する
- 同上ステップ1
- 同上ステップ2
Gflops = ( 1e-9 * 5 * N * N *lg(N*N) ) / execution time
実行時間は次のように計算されます。
execution time = Sum(memcpyHtoD + kernel + memcpyDtoH times for row and col FFT for each GPU)
これは、複数のGPUでCUFFTのパフォーマンスを評価する正しい方法ですか?FFTのパフォーマンスを表す他の方法はありますか?
ありがとう。