0

CUBLAS は、単一の大きな行列の乗算または加算などの効率的なアルゴリズム パッケージである可能性があります。しかし、一般的な設定では、ほとんどの計算は依存しています。したがって、次のステップは前のステップの結果に依存します。

これは、出力行列が CUBLAS ルーチンの入力行列とは異なる必要があるため (入力行列は const であるため)、1 つの問題を引き起こします。これらの一時的な行列のために、空間を malloc し、デバイスからデバイスにデータをコピーするのに多くの時間が費やされます。

余分なメモリ操作時間を避けるために、最初の引数が出力行列で、2 番目/3 番目の引数が入力行列である乗算 (A、A、B) のようなことを行うことは可能ですか? または、より良い回避策はありますか?

どうもありがとう !

4

2 に答える 2