1

OpenACC に変換した単純な CUDA コードがあります。すべてのカーネルは期待どおりに並列化され、CUDA カーネルと同様のパフォーマンスを発揮します。ただし、デバイスからホストへのメモリ転送によりパフォーマンスが低下します。私の CUDA コードでは固定メモリを使用しており、パフォーマンスが大幅に向上しています。残念ながら、OpenACC では固定メモリを利用する方法がわかりません。ドキュメントには何も見つかりませんでした。固定メモリを利用する簡単な OpenACC の例を教えてもらえますか?

PS: PGI 16.10-0 64 ビット コンパイラを使用しています。

4

1 に答える 1

3

「tesla」ターゲットの「pinned」サブオプション「-ta=tesla:pinned」を使用します。「-help -ta」フラグを使用すると、使用可能なすべてのサブオプションを表示できることに注意してください。

于 2016-12-28T16:22:41.857 に答える