2D 畳み込み用の CUDA プログラムを作成しましたが、それを CUDA 以外の実装と比較して、スピードアップを測定したいと考えています。
古典的な複数ループ アプローチまたは matlab の conv2 を使用してプレーンな C での自分の実装と比較することはできますが、それらは最速の実装ではないため、正当/公正な比較のようには感じられません。
また、OpenCV を試してみることを考えていましたが、SIMD に最適化されたバージョンを探していましたが、うまくいきませんでした。OpenCVを使用する必要がありますか?
注:これを含む他の質問を読みましたが、答えは基本的に私のプレーンなCコードまたは利用可能なさまざまな方法の議論と同じです。