ほとんどの論文は、CUDA カーネルのフロップ/Gflops と達成された帯域幅を示しています。次の質問に対するstackoverflowの回答も読みました。
プログラムで FLOPS/GFLOPS をカウントする - CUDA
ほとんどのことは問題ないように見えますが、それでもこれらの計算を快適に行うことはできません。誰でも単純な CUDA カーネルを作成できますか? 次に、deviceQuery の出力を示します。次に、フロップ/Gflops を段階的に計算し、このカーネルの帯域幅を達成します。次に、このカーネルの Visual Profiler の結果を表示します。つまり、この単純な CUDA カーネルについてステップバイステップで得られたすべての情報を含む詳細な結果を表示します。それは私たちのほとんどにとって本当に役に立ちます。ありがとう!