cuda - CUDA カーネル内でグローバル関数を呼び出す

Question

次のような行列乗算を含む CUDA カーネル関数を作成しようとしています。

__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);

 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}

行列の乗算演算を高速化したい。2 つの選択肢があります。

まず、Cublasライブラリを使用します。次に、行列乗算用のカーネルを作成し、内部で呼び出しますfoo()。

どちらの場合も失敗しました。

誰でも助けることができますか？

score 1 · Accepted Answer

現時点では独自の mat-mul カーネルを作成しないことをお勧めします。cublas の方法を試してください。

cublas lib は、計算能力が 3.5 以上のデバイスのカーネルでのみ呼び出すことができます。それ以外の場合は、ホスト側からのみ呼び出すことができます。cublas lib を使用する前に、cc のバージョンを確認できます。

cuda - CUDA カーネル内でグローバル関数を呼び出す

1 に答える 1

Related

Reference