2

そのため、GPU を使用して小さな過決定方程式系を同時に解くことで大幅な高速化が得られるかどうかを確認しようとしています。私の現在のアルゴリズムでは、CULA Dense ライブラリの LU 分解関数を使用しており、CULA 関数を初期化して実行するために、GPU と CPU の間を行き来する必要があります。CPU に戻ってデータをコピーし直す必要がないように、CUDA カーネルから CULA 関数を呼び出せるようにしたいと考えています。これにより、複数のシステムを同時に解決するために、異なるデータ セットで動作する複数のスレッドを作成することもできます。私の質問は、デバイス関数から CULA 関数を呼び出すことはできますか? CUBLAS と他のいくつかの CUDA ライブラリでそれが可能であることは知っています。

ありがとう!

4

1 に答える 1

4

短い答えはノーです。CULA ライブラリ ルーチンは、デバイス コードではなく、ホスト コードから呼び出されるように設計されています。

CULA には、関心のある独自のサポート フォーラムがここにあることに注意してください。

于 2013-11-13T23:26:33.093 に答える