image-processing - OpenCL カーネル内の一時行列とプライベートメモリの処理

Question

私は現在、かなりハリーマッチング追跡アルゴリズム (より大きな画像処理アルゴリズムの一部) を OpenCL に移行しています。

このアルゴリズムは、処理のためにいくつかの内部行列とベクトルを使用します。それらの半分はかなり小さいサイズ (10 列未満) ですが、残りの半分は入力行列 (n * n、2n * n など) によってはかなり大きくなる可能性があります。

すべての内部行列の定義は、入力行列に依存します。

標準にはローカル割り当て機能がないため、メモリのチャンクをグローバルメモリからワークアイテムのプライベートメモリにマッピングすることで、メモリの問題に取り組みました。コンテキストのセットアップ中にチャンクが重複しないようにして、実行時にデータの一貫性が保証されるようにします。

このアプローチは私には適切ではありません。ハックのように感じます。

このような状況に遭遇した人はいますか？あなたの解決策は何ですか？

score 2 · Accepted Answer

このようなグローバルメモリバッファのセグメント化は問題ありませんが、通常はホストへの出力にのみ使用されます。通常、グローバルメモリアクセスには数百命令サイクルのコストがかかるため、次のことをお勧めします。

代わりに、一時データを __private または __local メモリに割り当てます。後者については CL_DEVICE_LOCAL_MEM_SIZE を確認してください。これは通常 16KB ～ 64KB です。マルチプロセッサの __local メモリはワークグループ間で共有されることに注意してください。CL_DEVICE_LOCAL_MEM_SIZE の制限内であっても、使用量が多すぎると、マルチプロセッサの占有率に悪影響を及ぼし、したがってスループットに悪影響を及ぼします。これを観察する最善の方法は、ワークロードとデバイスで実験することです。
一時行列が __local メモリに対して大きすぎる場合は、各作業項目を小さくして、収まるようにし、グローバルメモリのかなりのオーバーヘッドを回避できるかどうかを検討してください。
各ワークアイテムの最小データフットプリントに厳しい制約がある場合は、説明したように __global メモリを使用してください。ただし、次のことを確認してください。
- 多数のワークグループを使用してカーネルを起動し、一部がグローバルメモリアクセスを待機している間、他のグループをマルチプロセッサでスケジュールできるようにします (「レイテンシの隠蔽」)。
- ベンダーがこれをサポートしている限り、グローバルメモリアクセスを結合します。NVidia OpenCL のベストプラクティスガイドには詳細が記載されており、100% を超えるパフォーマンスの向上は非常に達成可能です。

score 1 · Accepted Answer

あなたのアプローチは問題ないようです。

NVidias OpenCL のベストプラクティスガイドをご覧ください。セクション 3.2.2 - 「共有メモリ」には、行列乗算の例があります。各ワーキンググループは、必要なデータをグローバルメモリからローカルメモリにコピーします。

image-processing - OpenCL カーネル内の一時行列とプライベート メモリの処理

2 に答える 2

Related

Reference

image-processing - OpenCL カーネル内の一時行列とプライベートメモリの処理