OpenCL ベンチマーク サイトhttp://www.clbenchmark.com/には、次のベンチマークがあります。
Image Filter: Separable Gaussian Blur - Global Memory Usage and
Image Filter: Separable Gaussian Blur - Image Memory Usage
Nvidia がグローバル メモリ使用量を完全に支配しています。たとえば、GTX 580 は HD 7970 のほぼ 2 倍の速さです。これは、Nvidia がまだリードしている数少ないベンチマークの 1 つです。誰かがこれがなぜなのか説明できますか?
私が尋ねる理由は、非常に高速に動作する GTX 590 でレイ トレーサーを作成したからです。ほとんどのレビューから、私のレイ トレーサーは HD 7970 で 4 倍高速に実行されると予想していました。しかし、実際には 4 倍遅く実行されます。そして、私はその理由を理解していません。画像バッファは使用しません。ピクセルをグローバル メモリに書き出します。カーネル時間をプロファイリングすると、HD 7950 のカーネル時間が 4 倍遅いことがわかり、問題はカーネル側にあり、PCI バスを介してデータを移動するときではないことがわかります。