そのため、OpenCV を使用して移動オブジェクトの動きを検出するプロジェクトに取り組んでいます。検出を高速化し、CUDA を使用して高速化したいネストされた for ループを作成しようとしています。Visual Basic で CUDA 統合をすべてセットアップしました。これは、私の .cpp ファイルにネストされた for ループです。
for (int i=0; i<NumberOfFeatures; i++)
{
// Compute integral image.
cvIntegral(mFeatureImgs[i], mFirstOrderIIs[i]);
for (int j=0; j<NumberOfFeatures; j++)
{
// Compute product feature image.
cvMul(mFeatureImgs[i], mFeatureImgs[j], mWorker);
// Compute integral image.
cvIntegral(mWorker, mSecondOrderIIs[i][j]);
}
}
私はCUDAに比較的慣れていないので、私の質問は、CUDAを使用してこのネストされたforループをどのように正確に高速化するかの例を教えてもらえますか?