FMA パフォーマンスを計算する方法を理解したいと思います。ここの説明を見ると:
Skylake アーキテクチャの場合、命令にはLatency=4
とThroughput(CPI)=0.5
があるため、命令の全体的なパフォーマンスは命令4*0.5 = 2
ごとのクロックです。
したがって、最大 (ターボ) クロック周波数が 3 GHz であるかどうかを理解する限り、1 秒間に 1 つのコアで 1 500 000 000 命令を実行できます。
そうですか?もしそうなら、私がわずかに高いパフォーマンスを観察している理由は何ですか?