-2

次のような行列乗算を含む CUDA カーネル関数を作成しようとしています。

__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);

 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}

行列の乗算演算を高速化したい。2 つの選択肢があります。

まず、Cublasライブラリを使用します。次に、行列乗算用のカーネルを作成し、内部で呼び出しますfoo()

どちらの場合も失敗しました。

誰でも助けることができますか?

4

1 に答える 1

1

現時点では独自の mat-mul カーネルを作成しないことをお勧めします。cublas の方法を試してください。

cublas lib は、計算能力が 3.5 以上のデバイスのカーネルでのみ呼び出すことができます。それ以外の場合は、ホスト側からのみ呼び出すことができます。cublas lib を使用する前に、cc のバージョンを確認できます。

于 2013-08-26T09:08:35.263 に答える