私は現在、かなりハリー マッチング追跡アルゴリズム (より大きな画像処理アルゴリズムの一部) を OpenCL に移行しています。
このアルゴリズムは、処理のためにいくつかの内部行列とベクトルを使用します。それらの半分はかなり小さいサイズ (10 列未満) ですが、残りの半分は入力行列 (n * n、2n * n など) によってはかなり大きくなる可能性があります。
すべての内部行列の定義は、入力行列に依存します。
標準にはローカル割り当て機能がないため、メモリのチャンクをグローバル メモリからワークアイテムのプライベート メモリにマッピングすることで、メモリの問題に取り組みました。コンテキストのセットアップ中にチャンクが重複しないようにして、実行時にデータの一貫性が保証されるようにします。
このアプローチは私には適切ではありません。ハックのように感じます。
このような状況に遭遇した人はいますか?あなたの解決策は何ですか?