OpenCLを使用していくつかの計算を高速化しようとしていますが、アルゴリズムの一部は行列の反転で構成されています。OpenCLまたはCUDAで記述された行列または一般的な反転のlu分解(lapack dgetrfおよびdgetri)を計算するためのオープンソースライブラリまたは無料で利用可能なコードはありますか?マトリックスは実数で正方形ですが、それ以外に特別なプロパティはありません。これまでのところ、GPUでの基本的なblas行列-ベクトル演算の実装のみを見つけることができました。
マトリックスはかなり小さく、約60〜100行と列しかないため、CPUでより高速に計算できますが、アルゴリズムの途中で使用されるため、ホストに転送し、逆数を計算する必要があります。次に、結果をデバイスに転送して戻し、そこではるかに大規模な計算で使用されます。