あなたの質問に対する正確な答えではありませんが、GK104 (Kepler、GTX680) と GF110 (Fermi、GTX580) のパフォーマンスを理解するのに役立つかもしれないいくつかの情報:
Fermi では、コアは残りのロジックの 2 倍の周波数で実行されます。Kepler では、同じ周波数で実行されます。フェルミと比較してリンゴ同士の比較をより多く行いたい場合、ケプラーのコア数は事実上半分になります。したがって、GK104 (ケプラー) は 1536 / 2 = 768 の「フェルミ等価コア」になります。これは、GF110 (フェルミ) の 512 コアよりわずか 50% 多いだけです。
トランジスタ数を見ると、GF110が30億個、GK104が35億個。つまり、ケプラーのコア数は 3 倍ですが、トランジスタ数はわずかに多いだけです。つまり、ケプラーの「フェルミ等価コア」はフェルミよりも 50% だけ多いだけでなく、これらのコアのそれぞれはフェルミのものよりもはるかに単純でなければなりません。
したがって、これら 2 つの問題は、Kepler への移植時に多くのプロジェクトがスローダウンする理由をおそらく説明しています。
さらに、グラフィックス カード用に作成された Kepler のバージョンである GK104 は、スレッド間の連携が Fermi よりも遅くなるように調整されています (そのような連携はグラフィックスにとってそれほど重要ではないため)。上記の事実を考慮した後の潜在的な潜在的なパフォーマンスの向上は、これによって無効になる可能性があります。
倍精度浮動小数点のパフォーマンスの問題もあります。Tesla カードで使用される GF110 のバージョンは、単精度の 1/2 のパフォーマンスで倍精度浮動小数点を実行できます。チップがグラフィックス カードで使用される場合、倍精度のパフォーマンスは人為的に単精度のパフォーマンスの 1/8 に制限されますが、これは GK104 の 1/24 の倍精度のパフォーマンスよりもはるかに優れています。