“openacc”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

890 参照

java - オープンACCを使用してGPUでJavaコードを並列化できますか

OpenACC を使用して GPU で Java コードの「for ループ」を実行することは可能ですか?? 私のデータマイニングアルゴリズムは Java でコーディングされており、GPU でシーケンシャルコードを並列処理したいと考えています。GPU で Java コードを並列化するにはどうすればよいですか?

2015-04-14T08:51:35.393

0 投票する

1 に答える

1020 参照

openacc - Openacc エラー ibgomp: libgomp-plugin-host_nonshm.so.1 の読み込み中: libgomp-plugin-host_nonshm.so.1: できません

簡単なopenaccサンプルをコンパイルしたい（添付されていた）、正しくコンパイルされましたが、実行するとエラーが発生しました：

コンパイル: gcc-5 -fopenacc accVetAdd.c -lm
で実行: ./a.out
実行時にエラーが発生しました

エラー: libgomp: libgomp-plugin-host_nonshm.so.1 の読み込み中: libgomp-plugin-host_nonshm.so.1: 共有オブジェクトファイルを開けません: そのようなファイルまたはディレクトリはありません

私はそれをグーグルで見つけ、1ページしか見つけませんでした！次に、この問題を解決する方法を尋ねますか？

openacc libgomp

2015-06-17T06:35:21.243

0 投票する

3 に答える

569 参照

openacc - OpenACC コンパイラ: CAPS コンパイラをダウンロードして使用する方法

OpenACC プログラムを書きたいのですが、この種のプログラムを書くためのコンパイラが見つかりません。PGI コンパイラは、イランのような一部の国では無料ではありません。CAPS コンパイラのダウンロード方法を知りたいのですが、リンクが見つかりません。このページにリンクされている 1 つの投稿では、このページは有効ではありません。

openacc

2015-06-23T12:54:08.640

0 投票する

3 に答える

606 参照

cuda - OpenACC: OpenACC 並列ループから cuda device カーネルを呼び出す

hello.cu ファイルに単純なテスト cuda カーネルがある場合:

そして、mainacc.c で OpenACC コードをテストします。

このコードを次のようにコンパイルしようとすると、リンク時エラーが発生します。

「--relocatable-device-code true」オプションなどを指定して nvcc を試しましたが、成功しませんでした。ロードされたモジュールは次のとおりです。

OpenACC内でcudaデバイスカーネルを使用する正しい方法を教えていただけますか?

cuda interop gpu openacc

2015-07-31T02:08:25.980

0 投票する

1 に答える

318 参照

openmp - OpenMP プログラミングモデルを使用した GPU の動的/ネストされた並列処理

質問は、OpenMP のターゲット構造の宣言とGPU の動的/ネストされた並列処理機能に関連しています。OpenACC 2.0 は、2 つの方法で動的並列処理をサポートします。ルーチンディレクティブと並列/カーネルディレクティブをネストされた方法で使用します。ただし、ターゲット、チーム、配布などのネストされたデバイスディレクティブの使用は、OpenMP では禁止されています。しかし、ターゲットディレクティブの宣言は、OpenACC のルーチンディレクティブと似ているように思えます。

ただし、セマンティックとその使用法はまだ明確ではありません。私のサンプルコードはこんな感じです。

その例では、関数 foo がデバイス関数としてマップされることを期待しています。しかし、内部にターゲット構造があるため、コンパイラはこのコードを何らかの方法で変換します。私の質問はここにあります。スレッドがターゲットコンストラクト内で foo 関数の呼び出しに遭遇するとどうなりますか?

openmp gpgpu openacc

2015-08-06T08:27:11.773

0 投票する

2 に答える

1313 参照

c++ - OpenACC を使用して、いくつかの関数を呼び出す大きなコードを並列化できますか?

シーケンシャル C コードを並列化し、OpenACC (PGI コンパイラ) を使用して NVIDIA GPU にオフロードしようとしています。

私のコードはシーケンシャルコードとして書かれています。以下のように、非常に長い関数を頻繁に呼び出します。

そのような場合、big_function()は GPU で並列化して実行できますか?

#pragma acc kernels を使用して、 for ループ全体を並列領域に宣言しました。以下のように。

しかし、コンパイルされたファイルが完了するまでに非常に長い時間がかかります。そして、結果は正しくありませんでした。

OpenACC を使用して、多くの関数呼び出しを使用するシーケンシャルコードを並列化できますか?

または、big_function()を分割して小さな部分に分割する必要がありますか?

c++function parallel-processing nvidia openacc

2015-08-07T05:43:37.977

0 投票する

2 に答える

1164 参照

cuda - OpenACC のネストされたディレクティブ

OpenACC のネストされた機能を使用して、GPU カードの動的並列処理をアクティブにしようとしています。私は Tesla 40c を使用しており、OpenACC コンパイラは PGI バージョン 15.7 です。

私のコードはとてもシンプルです。次のコードをコンパイルしようとすると、コンパイラからこれらのメッセージが返されます

私のコード構造:

また、ルーチンディレクティブを使用するようにコードを変更しようとしました。しかし、私は再びコンパイルできませんでした

もちろん、内部の並列ループディレクティブを使用せずにルーチン (seq、worker、gang) でのみ試しました。コンパイラはされていますが、動的並列処理は有効化されていません。

OpenACC で動的並列処理を使用するにはどうすればよいですか?

cuda gpu nvidia openacc dynamic-parallelism

2015-08-12T10:21:17.160

0 投票する

1 に答える

668 参照

cuda - OpenACC でのキャッシュの使用

ラプラス 2D ソルバー内の特定のループに !$acc キャッシュを使用しようとしています。-Mcuda=ptxinfo を使用してコードを分析すると、共有メモリ (smem) が使用されていないことが示されますが、コードは基本条件よりも遅く実行されますか?!

コードの一部を次に示します。

これは !$acc キャッシュを使用した出力です

これは、キャッシュなしの出力です。

また、-Minfo=accel によって、ある程度の量のメモリーがキャッシュされていることが示されます。

OpenACC でキャッシュ (CUDA の意味での共有メモリ) を効率的に使用する方法を知りたいですか?

手伝ってくれてどうもありがとう。

ベザド

cuda gpu shared openacc

2015-08-20T00:17:43.063

問題タブ [openacc]

Reference