GTX760(Kepler) と GTX750Ti(Maxwell) の両方でベンチマーク (Parboil、Rodinia) を使用して実験を行いました。次に、Nvidia ビジュアル プロファイラーを使用して結果を分析しました。ほとんどのアプリケーションでは、グローバル命令の数が Maxwell アーキテクチャで最大 7 ~ 10 倍に大幅に増加します。
仕様 両方のグラフィックカード用
GTX760 6.0Gbps 2048MB 256bit 192.2GB/秒
GTX750Ti 5.4Gbps 2048MB 128bit 86.4Gb/秒
Ubuntu 14.04
CUDA ドライバー 340.29
ツールキット 6.5
ベンチマーク アプリケーションをコンパイルし (変更なし)、NVVP(6.5) から結果を収集しました。すべてを分析 > カーネル メモリ > L1/共有メモリ セクションから、グローバル ロード トランザクション数を収集しました。
ケプラー (リンク)とマクスウェル(リンク)で実行した histo のシミュレーション結果のスクリーンショットを添付しました。
Maxwell アーキテクチャでグローバル命令数が増加する理由を知っている人はいますか?
ありがとうございました。