CUDA カーネルを自分でプログラムしました。CPU コードと比較すると、私のカーネル コードは CPU よりも 10 倍高速です。
しかし、私の実験には疑問があります。
私のプログラムは、すべての GPU コア、適切な共有メモリの使用、適切なレジスタ数、十分な占有率を使用して完全に最適化されていますか?
カーネル コードのパフォーマンスを評価するにはどうすればよいですか?
CUDA の最大スループットを理論的に計算するにはどうすればよいですか?
CPU の GFLOPS と GPU の GFLOPS と GFLOPS レートを比較することは、それらの透明な理論上のパフォーマンスであるというのは正しいですか?
前もって感謝します。