現在、OpenCL を使用していくつかの画像処理アルゴリズムを実行しています。基本的に、私のアルゴリズムでは、各ピクセルの線形連立方程式を解く必要があります。各システムは他のシステムから独立しているため、並列実装を行うのは自然なことです。
ViennaCL やAMD APPMLなどのいくつかの BLAS パッケージを見てきましたが、それらはすべて同じ使用パターン (CL デバイスで実行される BLAS サブルーチンを呼び出すホスト) を持っているようです。
私が必要としているのは、OpenCL カーネル内で呼び出すことができる BLAS ライブラリです。これにより、多くの線形システムを並行して解くことができます。
AMD フォーラムで同様の質問を見つけました。
ありがとう