問題タブ [tensorflow-xla]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
19 参照

tensorflow - Tensorflow XLA は、はるかに多くの cuMemcpyHtoDAsync 呼び出しを導入します

Tensorflow とその XLA jit コンパイルで nvprof を使用してプロファイリングを行っています。興味深いことに、XLA ではさらに多くの cuMemcpyHtoDAsync 呼び出しが導入されます。

たとえば、V100 の resnet50 では、batch=64 の推論の下で、xla jit は平均で 5000 回以上の cuMemcpyHtoDAsync 呼び出しを行います。スクリプトは dl-infer-perf で利用できますnvprof -f --csv --print-api-summary python3 infer_perf/to_xla.py mobilenet --batch=64 --threads=1

これに関する任意のアイデアをいただければ幸いです。