次のような行列乗算を含む CUDA カーネル関数を作成しようとしています。
__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);
 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}
行列の乗算演算を高速化したい。2 つの選択肢があります。
まず、Cublasライブラリを使用します。次に、行列乗算用のカーネルを作成し、内部で呼び出しますfoo()。
どちらの場合も失敗しました。
誰でも助けることができますか?