単純な 3D cuFFT プログラムを GTX 780 と倍精度モードの Tesla K40 で比較しました。
GTX 780 では約 85 Gflops を測定しましたが、K40 では約 160 Gflops を測定しました。これらの結果は私を困惑させました: K40 が 1.4 Tflops であるのに対し、GTX 780 ha は 166 Gflops のピーク理論パフォーマンスです。
K40 での cuFFT の効果的なパフォーマンスが理論上のピーク パフォーマンスから非常に離れているという事実は、このリンクで Nvidia によって作成されたグラフからも得られます。
なぜこれが起こるのか誰かが私に説明できますか? cuFFT ライブラリに制限はありますか? 多分いくつかのキャッシュの動機...