フォーラムをざっと見ましたが、この質問はまだ出されていないと思います。
私は現在、博士号取得中に他の誰かが作成した MPI/CUDA ハイブリッド コードを使用しています。各 CPU には独自の GPU があります。私の仕事は、(すでに動作している)コードを実行してデータを収集し、追加のものを実装することです。このコードを単一の CPU / マルチ GPU に変換することは、現時点ではオプションではありません (後で可能性があります)。
パフォーマンス プロファイリング ツールを使用して全体を分析したいと考えています。
現時点では、各 CPU が独自の GPU に対して nvvp を起動してデータを収集し、別のプロファイリング ツールが一般的な CPU/MPI 部分を処理するようにすることが考えられます (私はいつものように TAU を使用する予定です)。
問題は、nvvp のインターフェイスを 8 回同時に起動すること (8 つの CPU/GPU で実行している場合) が非常に煩わしいことです。インターフェイスを経由せずに、ファイルにデータを直接書き込むコマンド ラインを取得し、後で nvvc のインターフェイスにフィードして分析できるようにしたいと考えています。
各 CPU によって実行され、それぞれの GPU に関するデータを提供するファイルを生成するコマンド ラインを取得したいと思います。8 (GPU/CPU) = 8 ファイル。次に、これらのファイルを nvcc で 1 つずつフィードして分析し、データを手動で比較する予定です。
何か案が ?
ありがとう !