問題タブ [nvprof]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - nv-nsight-cu-cli が原因で Tensorflow が失敗した
最新の Nsight Compute プロファイリング ツールをダウンロードしました。これを使用して、Tensorflow アプリケーションのベンチマークを行いたいと考えています。私が使用しているコードはこちらです。実行すると完全に正常に動作し、ベンチマークを実行しnvprof ./mnist.py
てもまったく問題はありませんでした。ただし、コマンドで実行しようとするとsudo ./nv-nsight-cu-cli [path to the file]
、次のエラーが発生します。
ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory
nv-nsight-cu-cli
どういうわけか環境変数がまったく認識されなかったのではないかと思います。周りに修正はありますか?
cuda - CUDA での FLOP 効率
の定義によると、flop_sp_efficiency
ピーク時の単精度浮動小数点演算の達成率
CUDA マニュアルは FLOPS をカバーしています。メトリクスは歩留まり率 (例: 10%)。このことから、「ピーク」という用語について 2 つの疑問が生じます。
1-それはハードウェア固有の値ですか? したがって、nvprof は比率を計算するために、特定のデバイスで実行されるすべてのアプリケーションに対して分母が一定である必要があることに注意する必要があります。マニュアルによると、それはNo_CUDA_cores * Graphic_clock_freq * 2
. それが nvprof が分母を設定する方法ですか?
2- これは、カーネルごとのプログラムの実行中にピーク値が達成されるということですか? カーネルが 10 回呼び出されるとします。1 回の呼び出しで最大の FLOPS が得られます (ハードウェア値とは関係ありません)、たとえば 2GFLOPS です。次に、効率が計算されsum(FLOPS_i)/10
、10 回の呼び出しの平均 FLOPS が得られます。次に、この平均を 2 で割ると、そのカーネルの FLOPS 効率が得られます。この仮定では、カーネルが 2 GFLOPS に達する可能性があり、別のカーネルが 4 GFLOPS に達する可能性があります。これは、nvprof でカーネルごとにメトリックが報告されるためです。
それについて何かコメントはありますか?