問題タブ [tensorrt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
79 参照

tensorrt - TensorRT をインストールすると「Packages File not found」エラーが発生する

TensorRT のインストール中に、以下のエラーが発生しました。すでに cuda 9.0 と cudnn 7.0.5 をインストールしています。このエラーを回避するにはどうすればよいですか?

Err:5 file:/var/cuda-repo-9-0-local パッケージ ファイルが見つかりません - /var/cuda-repo-9-0-local/Packages (2: そのようなファイルまたはディレクトリはありません)

0 投票する
2 に答える
2317 参照

tensorflow - NVIDIA V100 で TensorRT FP16 または INT8 を使用しても速度が向上しない

trt.create_inference_graph を使用して、Keras で変換された Tensorflow 保存モデルを FP32 から FP16 および INT8 に変換し、TensorFlow サービングに使用できる形式で保存しようとしています。コードはこちら - https://colab.research.google.com/drive/16zUmIx0_KxRHLN751RCEBuZRKhWx6BsJ

ただし、これをテスト クライアントで実行しても、タイミングに変化は見られません。

ラップトップで NVIDIA V100 32 GB と 8Gb 1070 GTX カードを使用してさまざまなモデルを比較しました。メモリ効果を確認するために、入力形状を減らしたり増やしたりしてみました。全体として、32 GB メモリの利点 (モデルをロードするだけでなく、メモリを使い果たすことなくフレームを処理するため) 以外に、V100 は速度が向上していないようです。特にFP16モードで2倍のスピードアップを考えていました。Keras に変換された TF モデルなのか、モデルの複雑さや設計に何らかの役割があるのか​​ はわかりません。

テストの詳細はこちらhttps://docs.google.com/spreadsheets/d/1Sl7K6sa96wub1OXcneMk1txthQfh63b0H5mwygyVQlE/edit?usp=sharing

FP32 - V100 - 最適化なし

TensorFlow ベースの最適化を使用した FP 32 - TransformGraph

重みまたはモデルの量子化なし

FP ?? TensorFlow ベースの最適化を使用 - +重みの量子化 - TransformGraph

重みが量子化された後。モデルサイズは39MB!! (~149 MB から) しかし、時間は 2 倍です ('Time for ', 10, ' is ', 1.201113224029541)

モデルの量子化 - 機能しません (少なくとも TF Serving では)

NVIDIA TensorRT 最適化の使用 (colab ノートブック)

FP16 - v100

知 8

最適化スニペット https://colab.research.google.com/drive/1u79vDN4MZuq6gYIOkPmWsbghjunbDq6m

注 : 実行ごとに若干の違いがあります

0 投票する
1 に答える
174 参照

real-time - TensorRT ベースの深層学習モデルをリアルタイムで実行するには?

TensorRTで深層学習モデルを最適化しました。C++ インターフェイスは、Jetson TX2で最適化されたモデルによって画像を推論しています。このインターフェイスは、平均 60 FPS を提供しています (ただし、安定していません。推定値は 50 ~ 160 FPS の範囲です)。このシステムを、リアルタイム パッチを適用した Jetson でリアルタイムで実行する必要があります。

TensorRT を使用したリアルタイムの推論についてどう思いますか? TensorRT を使用してリアルタイム推論システムを開発することは可能ですか?

プリエンプションを提供するために、プロセスとスレッドに高い優先度を設定しようとしました。すべての推論でほぼ同じ FPS 値が期待されます。したがって、決定論的な推論時間が必要です。しかし、システムは確定的に出力できませんでした。