“nvidia-docker”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

3443 参照

python - 警告: tensorflow: true の構成パラメーターにもかかわらず、イメージ ID の検出を無視しています

私は現在、GTSDB データセットを使用して Faster RCNN Inception V2 モデル (COCO で事前トレーニング済み) をトレーニングしようとしています。FullIJCNN データセットがあり、データセットをtraining、validation、およびtestの 3 つの部分に分割しました。最後に、それぞれ 3 つの異なる csv ファイルを作成し、 trainとvalidation用の TFRecord ファイルを作成しました。一方、各画像に対してグラウンドトゥルースボックス座標を読み取り、画像上の交通標識の周りにボックスを描画するコードブロックがあります。また、クラスラベルを正しく書き込みます。ここにいくつかの例があります。繰り返しますが、これらのボックスはネットワークによって予測されません。関数によって手動で描画されます。

描かれたボックス 1

描かれたボックス 2

次に、データセットフォルダーに含まれている README ファイルを使用してラベルファイルを作成し、labels.txt の最初の行に0 の背景行を追加して、コードで機能するようにしました (これは愚かなことだったと思います)。インデックスエラーのスロー。ただし、.pbtxt ファイルに「背景」を 1 から開始するためのキーはありません。 186のテスト例。そのまま使用。最後に、実行してトレーニングジョブを開始しましたnum_classes: 90num_classes: 43num_examples: 5000num_examples: 186num_steps: 200000

コマンドとこれがトレースバックです（コードブロックで申し訳ありません。具体的にログを追加する方法がわかりません）：

次のような多くの警告が作成されました。

これらのメッセージの理由は、元の構成ファイルに行があるにもかかわらず、num_examplesに設定されています。異なるパラメーターで新しい構成ファイルを作成する理由がわかりません。ただし、これらのメッセージでいっぱいのログ全体の後、レポートが表示されますが、これが正確に何を伝えようとしているのかはわかりません。レポートは次のとおりです。2000num_examples: 186

最後に、Tensorboard をチェックして正しくトレーニングされていることを確認しましたが、私が見ているのは苛立たしいものです。これが私のモデルの Tensorboard グラフのスクリーンショットです (損失):

損失

一般損失

何か間違ったことをしているような気がします。これが特定の質問かどうかはわかりませんが、できるだけ詳しく説明しようとしました。

私の質問は次のとおりです。これらの手順でどのような変更を加える必要がありますか? 関数が真のボックスを描画するのに、モデルが何が起こっているのか理解できないのはなぜですか? 前もって感謝します！

2018-07-26T10:59:13.233

0 投票する

1 に答える

826 参照

tensorflow - Nvidia GPU ノードを使用して Kubernetes でサンプルポッドを実行する

Nvidia GPU ノード/スレーブを使用して Kubernetes をセットアップしようとしています。https://docs.nvidia.com/datacenter/kubernetes-install-guide/index.htmlのガイドに従ったところ、ノードをクラスターに参加させることができました。以下の kubeadm サンプルポッドを試しました。

Pod がスケジューリングに失敗し、kubectl イベントに次のように表示されます。

AWS EC2 インスタンスを使用しています。マスターノードの m5.large & スレーブノードの g2.8xlarge。ノードを記述すると、「nvidia.com/gpu: 4」も表示されます。手順や構成が不足している場合、誰か助けてもらえますか?

tensorflow kubernetes nvidia-docker

2018-08-07T04:22:15.597

0 投票する

1 に答える

6113 参照

docker - nvidia-docker は GPU なしで実行できますか?

公式の PyTorch Docker イメージ nvidia/cudaは、GPU なしで Docker CE 上で実行できるに基づいています。nvidia-dockerでも実行できます、CUDAサポートが有効になっていると思います。GPU なしで x86 CPU で nvidia-docker 自体を実行することは可能ですか? CUDA サポートが利用可能な場合 (内部で実行する場合nvidia-dockerなど) にそれを利用し、それ以外の場合は CPU を使用する単一の Docker イメージを構築する方法はありますか? torch.cudaDocker CE 内から使用するとどうなりますか? nvidia-dockerDocker CE と Docker CEにマージできない理由の違いは何ですか?

docker cuda pytorch nvidia-docker

2018-08-26T23:20:21.340

0 投票する

1 に答える

584 参照

docker - nvidia-docker2 コンテナーの最初の実行が非常に遅い

GPU 対応の Docker コンテナを EC2 p2.xlarge インスタンスで実行すると、コンテナが実行を開始するまでに 30 ～ 90 秒の遅延が発生します。後続のコンテナーは高速で開始されます (1 秒の遅延)。

EC2 は、NVIDIA ドライバーバージョン 396.54 および nvidia-docker2 を使用して ubuntu 18.04 を実行しています (公式インストールガイド: https://github.com/NVIDIA/nvidia-dockerに従ってください) 。

最新の公式 CUDA イメージを使用してテストしています: docker run --rm nvidia/cuda nvidia-smi

私のマシンでは持続モードが有効になっています。https://github.com/NVIDIA/nvidia-docker/wiki/Frequently-Asked-Questions#how-do-i-install-the-nvidia-driverの「2.0 でコンテナーの起動が遅いのはなぜですか? " それは解決策になるはずですが、私にはうまくいきません。

遅延の原因とそれを修正する方法についてのアイデアを歓迎します。

docker amazon-ec2 nvidia nvidia-docker

2018-08-31T12:06:06.147

問題タブ [nvidia-docker]

python - 警告: tensorflow: true の構成パラメーターにもかかわらず、イメージ ID の検出を無視しています

tensorflow - Nvidia GPU ノードを使用して Kubernetes でサンプル ポッドを実行する

docker - nvidia-docker は GPU なしで実行できますか?

docker - nvidia-docker2 コンテナーの最初の実行が非常に遅い

Reference

tensorflow - Nvidia GPU ノードを使用して Kubernetes でサンプルポッドを実行する