奇妙に聞こえるかもしれませんが、これが私のシナリオです。
行列と行列の乗算 (A(n*k)*B(k*n)) を実行する必要がありますが、出力行列に対して評価される対角要素のみが必要です。cublas ライブラリを検索しましたが、それを実行できるレベル 2 または 3 の関数は見つかりませんでした。そこで、A の各行と B の各列を CUDA スレッドに分散することにしました。各スレッド (idx) について、内積 "A[idx,:]*B[:,idx]" を計算し、対応する対角出力として保存する必要があります。さて、この内積にも時間がかかるので、どうにかしてここで cublas 関数 (cublasSdot など) を呼び出してそれを達成できないかと考えています。
私の目標を直接達成できるいくつかの cublas 関数を逃した場合 (行列-行列乗算の対角要素のみを計算する)、この質問は破棄される可能性があります。