GPU 実装では、そのパフォーマンスを GLOPS で見積もる必要があります。コードは非常に基本的なものですが、私の問題は、操作「sqrt」または「mad」に 1 かそれ以上の FLOPS を与える必要があるかどうかです。
さらに、この GPU の理論上の最大値は 500GFLOPS ですが、これらの操作で 1 FLOP と言うと、コードで 50 GFLOPS が得られます。パーセンテージで表すと10%になります。スピードアップに関しては、100倍になります。ですから素晴らしいと思いますが、10% は利回りが少し低いように思えますが、どう思いますか?
ありがとう