問題タブ [nvidia-docker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 警告: tensorflow: true の構成パラメーターにもかかわらず、イメージ ID の検出を無視しています
私は現在、GTSDB データセットを使用して Faster RCNN Inception V2 モデル (COCO で事前トレーニング済み) をトレーニングしようとしています。FullIJCNN データセットがあり、データセットをtraining、validation、およびtestの 3 つの部分に分割しました。最後に、それぞれ 3 つの異なる csv ファイルを作成し、 trainとvalidation用の TFRecord ファイルを作成しました。一方、各画像に対してグラウンド トゥルース ボックス座標を読み取り、画像上の交通標識の周りにボックスを描画するコード ブロックがあります。また、クラス ラベルを正しく書き込みます。ここにいくつかの例があります。繰り返しますが、これらのボックスはネットワークによって予測されません。関数によって手動で描画されます。
次に、データセット フォルダーに含まれている README ファイルを使用してラベル ファイルを作成し、labels.txt の最初の行に0 の背景行を追加して、コードで機能するようにしました (これは愚かなことだったと思います)。インデックスエラーのスロー。ただし、.pbtxt ファイルに「背景」を 1 から開始するためのキーはありません。 186のテスト例。そのまま使用。最後に、実行してトレーニングジョブを開始しましたnum_classes: 90
num_classes: 43
num_examples: 5000
num_examples: 186
num_steps: 200000
コマンドとこれがトレースバックです(コードブロックで申し訳ありません。具体的にログを追加する方法がわかりません):
次のような多くの警告が作成されました。
これらのメッセージの理由は、元の構成ファイルに行があるにもかかわらず、num_examples
に設定されています。異なるパラメーターで新しい構成ファイルを作成する理由がわかりません。ただし、これらのメッセージでいっぱいのログ全体の後、レポートが表示されますが、これが正確に何を伝えようとしているのかはわかりません。レポートは次のとおりです。2000
num_examples: 186
最後に、Tensorboard をチェックして正しくトレーニングされていることを確認しましたが、私が見ているのは苛立たしいものです。これが私のモデルの Tensorboard グラフのスクリーンショットです (損失):
何か間違ったことをしているような気がします。これが特定の質問かどうかはわかりませんが、できるだけ詳しく説明しようとしました。
私の質問は次のとおりです。これらの手順でどのような変更を加える必要がありますか? 関数が真のボックスを描画するのに、モデルが何が起こっているのか理解できないのはなぜですか? 前もって感謝します!
tensorflow - Nvidia GPU ノードを使用して Kubernetes でサンプル ポッドを実行する
Nvidia GPU ノード/スレーブを使用して Kubernetes をセットアップしようとしています。https://docs.nvidia.com/datacenter/kubernetes-install-guide/index.htmlのガイドに従ったところ、ノードをクラスターに参加させることができました。以下の kubeadm サンプル ポッドを試しました。
Pod がスケジューリングに失敗し、kubectl イベントに次のように表示されます。
AWS EC2 インスタンスを使用しています。マスター ノードの m5.large & スレーブ ノードの g2.8xlarge。ノードを記述すると、「nvidia.com/gpu: 4」も表示されます。手順や構成が不足している場合、誰か助けてもらえますか?
docker - nvidia-docker は GPU なしで実行できますか?
公式の PyTorch Docker イメージnvidia/cuda
は、GPU なしで Docker CE 上で実行できる に基づいています。nvidia-dockerでも実行できます、CUDAサポートが有効になっていると思います。GPU なしで x86 CPU で nvidia-docker 自体を実行することは可能ですか? CUDA サポートが利用可能な場合 (内部で実行する場合nvidia-docker
など) にそれを利用し、それ以外の場合は CPU を使用する単一の Docker イメージを構築する方法はありますか? torch.cuda
Docker CE 内から使用するとどうなりますか? nvidia-docker
Docker CE と Docker CEにマージできない理由の違いは何ですか?
docker - nvidia-docker2 コンテナーの最初の実行が非常に遅い
GPU 対応の Docker コンテナを EC2 p2.xlarge インスタンスで実行すると、コンテナが実行を開始するまでに 30 ~ 90 秒の遅延が発生します。後続のコンテナーは高速で開始されます (1 秒の遅延)。
EC2 は、NVIDIA ドライバー バージョン 396.54 および nvidia-docker2 を使用して ubuntu 18.04 を実行しています (公式インストール ガイド: https://github.com/NVIDIA/nvidia-dockerに従ってください) 。
最新の公式 CUDA イメージを使用してテストしています: docker run --rm nvidia/cuda nvidia-smi
私のマシンでは持続モードが有効になっています。https://github.com/NVIDIA/nvidia-docker/wiki/Frequently-Asked-Questions#how-do-i-install-the-nvidia-driverの「2.0 でコンテナーの起動が遅いのはなぜですか? " それは解決策になるはずですが、私にはうまくいきません。
遅延の原因とそれを修正する方法についてのアイデアを歓迎します。