問題タブ [nvprof]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
436 参照

tensorflow - nv-nsight-cu-cli が原因で Tensorflow が失敗した

最新の Nsight Compute プロファイリング ツールをダウンロードしました。これを使用して、Tensorflow アプリケーションのベンチマークを行いたいと考えています。私が使用しているコードはこちらです。実行すると完全に正常に動作し、ベンチマークを実行しnvprof ./mnist.pyてもまったく問題はありませんでした。ただし、コマンドで実行しようとするとsudo ./nv-nsight-cu-cli [path to the file]、次のエラーが発生します。

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory

nv-nsight-cu-cliどういうわけか環境変数がまったく認識されなかったのではないかと思います。周りに修正はありますか?

0 投票する
1 に答える
1074 参照

c++ - 「nvprof」の結果の「GPU アクティビティ」と「API 呼び出し」の違いは何ですか?

「nvprof」の結果の「GPU アクティビティ」と「API 呼び出し」の違いは何ですか?

なぜ同じ関数に時間差があるのか​​わかりません。たとえば、[CUDA memcpy DtoH] と cuMemcpyDtoH です。

そのため、適切な時期がわかりません。測定値を書かなければなりませんが、どれを使用すればよいかわかりません。

ここに画像の説明を入力

0 投票する
2 に答える
942 参照

cuda - CUDA での FLOP 効率

の定義によると、flop_sp_efficiency

ピーク時の単精度浮動小数点演算の達成率

CUDA マニュアルは FLOPS をカバーしています。メトリクスは歩留まり率 (例: 10%)。このことから、「ピーク」という用語について 2 つの疑問が生じます。

1-それはハードウェア固有の値ですか? したがって、nvprof は比率を計算するために、特定のデバイスで実行されるすべてのアプリケーションに対して分母が一定である必要があることに注意する必要があります。マニュアルによると、それはNo_CUDA_cores * Graphic_clock_freq * 2. それが nvprof が分母を設定する方法ですか?

2- これは、カーネルごとのプログラムの実行中にピーク値が達成されるということですか? カーネルが 10 回呼び出されるとします。1 回の呼び出しで最大の FLOPS が得られます (ハードウェア値とは関係ありません)、たとえば 2GFLOPS です。次に、効率が計算されsum(FLOPS_i)/10、10 回の呼び出しの平均 FLOPS が得られます。次に、この平均を 2 で割ると、そのカーネルの FLOPS 効率が得られます。この仮定では、カーネルが 2 GFLOPS に達する可能性があり、別のカーネルが 4 GFLOPS に達する可能性があります。これは、nvprof でカーネルごとにメトリックが報告されるためです。

それについて何かコメントはありますか?