cuda - Nvidia プラットフォームを使用して OpenCL のローカル (共有) メモリを構成する

Question

OpenCL カーネル内でローカルメモリアクセスパターンを最適化したいと考えています。構成可能なローカルメモリについてどこかで読みました。たとえば、ローカルメモリに使用する量と自動キャッシュに使用する量を構成できる必要があります。

また、最新の (Kepler) Nvidia ハードウェアのバンクサイズを選択できることも読みました: http://www.acceleware.com/blog/maximizing-shared-memory-bandwidth-nvidia-kepler-gpus。この点は、倍精度値をローカルメモリに格納する場合に非常に重要と思われます。

Nvidia は、CUDA ユーザー専用のローカルメモリを設定する機能を提供していますか? OpenCL の同様のメソッドが見つかりません。では、これは別の方法で呼び出されているのでしょうか、それとも実際には存在しないのでしょうか?

score 5 · Accepted Answer

残念ながら、OpenCL を使用する場合、L1 キャッシュ/ローカルメモリ構成を制御する方法はありません。この機能は、CUDA ランタイムによってのみ提供されます (cudaDeviceSetCacheConfigまたはを介してcudaFuncSetCacheConfig)。

1 に答える 1