CUDA C++ を使用して、画像を水平または垂直にミラーリングする単純な関数を開発しました。
そんな時、NVIDIA Performance Primitives Library にもイメージミラーリングの機能があることを知りました。
比較のために、私は自分の関数を NPP に対して計時しました。驚いたことに、私の機能は優れていました (わずかな差ではありますが、それでも...)。
CUDA タイマーだけでなく、Windows タイマーを使用して結果を数回確認しました。
私の質問は、NPP 関数は NVIDIA GPU 用に完全に最適化されていないのでしょうか?
開発には CUDA 5.0、GeForce GTX460M (Compute 2.1)、および Windows 8 を使用しています。