次のような行列乗算を含む CUDA カーネル関数を作成しようとしています。
__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);
__global__ void foo(type para){
....
Matrix_Multi(Matrix A,Matrix B,Matrix C);
....
}
行列の乗算演算を高速化したい。2 つの選択肢があります。
まず、Cublasライブラリを使用します。次に、行列乗算用のカーネルを作成し、内部で呼び出しますfoo()
。
どちらの場合も失敗しました。
誰でも助けることができますか?