1

Nvidia GPU を使用して tensorflow で docker を実行しようとしていますが、コンテナーを実行すると次のエラーが発生します。

pgp_1  | Traceback (most recent call last):
pgp_1  |   File "/opt/app-root/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module>
pgp_1  |     from tensorflow.python.pywrap_tensorflow_internal import *
pgp_1  |   File "/opt/app-root/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in <module>
pgp_1  |     _pywrap_tensorflow_internal = swig_import_helper()
pgp_1  |   File "/opt/app-root/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper
pgp_1  |     _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)
pgp_1  |   File "/opt/app-root/lib64/python3.6/imp.py", line 243, in load_module
pgp_1  |     return load_dynamic(name, filename, file)
pgp_1  |   File "/opt/app-root/lib64/python3.6/imp.py", line 343, in load_dynamic
pgp_1  |     return _load(spec)
pgp_1  | ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory

Docker-compose

私のドッカー構成ファイルは次のようになります。

version: '3'
services:
  pgp:
    devices:
    - /dev/nvidia0
    - /dev/nvidia1
    - /dev/nvidia2
    - /dev/nvidia3
    - /dev/nvidia4
    - /dev/nvidiactl
    - /dev/nvidia-uvm
    image: "myimg/pgp"
    ports:
     - "5000:5000"
    environment:
     - LD_LIBRARY_PATH=/opt/local/cuda/lib64/
     - GPU_DEVICE=4
     - NVIDIA_VISIBLE_DEVICES all
     - NVIDIA_DRIVER_CAPABILITIES compute,utility
    volumes:
     - ./train_package:/opt/app-root/src/train_package
     - /usr/local/cuda/lib64/:/opt/local/cuda/lib64/

ご覧のとおり、ホスト cuda を docker コンテナーにマップするボリュームを用意しようとしましたが、これは役に立ちませんでした。

私は正常に実行できますnvidia-docker run --rm nvidia/cuda nvidia-smi

バージョン

クーダ

cat /usr/local/cuda/version.txt は CUDA バージョン 9.0.176 を示します

nvcc -V

nvcc -V nvcc: NVIDIA (R) Cuda コンパイラ ドライバ Copyright (c) 2005-2017 NVIDIA Corporation Build on Fri_Sep__1_21:08:03_CDT_2017 Cuda コンパイル ツール、リリース 9.0、V9.0.176

nvidia-docker バージョン

NVIDIA Docker: 2.0.3 クライアント: バージョン: 17.12.1-ce

API バージョン: 1.35

Go バージョン: go1.9.4

Git コミット: 7390fc6 ビルド: 2018 年 2 月 27 日火曜日 22:17:40

OS/アーチ: linux/amd64

サーバー: エンジン: バージョン: 17.12.1-ce

API バージョン: 1.35 (最小バージョン 1.12)

Go バージョン: go1.9.4

Git コミット: 7390fc6

ビルド: 2018 年 2 月 27 日 (火) 22:16:13

OS/アーチ: linux/amd64

実験的: false

テンソルフロー

1.5、pip 経由で GPU をサポート

ldconfig -p | grep cuda
libnvrtc.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvrtc.so.9.0
libnvrtc.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvrtc.so
libnvrtc-builtins.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvrtc-builtins.so.9.0
libnvrtc-builtins.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvrtc-builtins.so
libnvgraph.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvgraph.so.9.0
libnvgraph.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvgraph.so
libnvblas.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvblas.so.9.0
libnvblas.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvblas.so
libnvToolsExt.so.1 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvToolsExt.so.1
libnvToolsExt.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnvToolsExt.so
libnpps.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnpps.so.9.0
libnpps.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnpps.so
libnppitc.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppitc.so.9.0
libnppitc.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppitc.so
libnppisu.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppisu.so.9.0
libnppisu.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppisu.so
libnppist.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppist.so.9.0
libnppist.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppist.so
libnppim.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppim.so.9.0
libnppim.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppim.so
libnppig.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppig.so.9.0
libnppig.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppig.so
libnppif.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppif.so.9.0
libnppif.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppif.so
libnppidei.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppidei.so.9.0
libnppidei.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppidei.so
libnppicom.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppicom.so.9.0
libnppicom.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppicom.so
libnppicc.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppicc.so.9.0
libnppicc.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppicc.so
libnppial.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppial.so.9.0
libnppial.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppial.so
libnppc.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppc.so.9.0
libnppc.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libnppc.so
libicudata.so.55 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libicudata.so.55
libcusparse.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcusparse.so.9.0
libcusparse.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcusparse.so
libcusolver.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcusolver.so.9.0
libcusolver.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcusolver.so
libcurand.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcurand.so.9.0
libcurand.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcurand.so
libcuinj64.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcuinj64.so.9.0
libcuinj64.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcuinj64.so
libcufftw.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcufftw.so.9.0
libcufftw.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcufftw.so
libcufft.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcufft.so.9.0
libcufft.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcufft.so
libcudart.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcudart.so.9.0
libcudart.so.7.5 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcudart.so.7.5
libcudart.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcudart.so
libcudart.so (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcudart.so
libcuda.so.1 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so.1
libcuda.so (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so
libcublas.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcublas.so.9.0
libcublas.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libcublas.so
libaccinj64.so.9.0 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libaccinj64.so.9.0
libaccinj64.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libaccinj64.so
libOpenCL.so.1 (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libOpenCL.so.1
libOpenCL.so (libc6,x86-64) => /usr/local/cuda-9.0/targets/x86_64-linux/lib/libOpenCL.so

Docker とホストの Tensorflow を使用したテスト

ホスト上で実行すると、次のように動作します。

python3 -c "import tensorflow as tf; print(tf.GIT_VERSION, tf.VERSION)"

v1.5.0-0-g37aa430d84 1.5.0

コンテナを実行

nvidia-docker run -d --name testtfgpu -p 8888:8888 -p 6006:6006 gcr.io/tensorflow/tensorflow:latest-gpu

ログイン

nvidia-docker exec -it testtfgpu bash

Tensorflow のバージョンをテストする

pip show tensorflow-gpuショー:

pip show tensorflow-gpu Name: tensorflow-gpu Version: 1.6.0 Summary: TensorFlow helps the tensors flow Home-page: https://www.tensorflow.org/ Author: Google Inc. Author-email: opensource@google.com License: Apache 2.0 Location: /usr/local/lib/python2.7/dist-packages Requires: astor, protobuf, gast, tensorboard, six, wheel, absl-py, backports.weakref, termcolor, enum34, numpy, grpcio, mock

パイソン 2

python -c "import tensorflow as tf; print(tf.GIT_VERSION, tf.VERSION)"

結果:

Illegal instruction (core dumped)

パイソン3

python3 -c "import tensorflow as tf; print(tf.GIT_VERSION, tf.VERSION)"

結果:

python3 -c "import tensorflow as tf; print(tf.GIT_ 
Traceback (most recent call last):
  File "<string>", line 1, in <module>
ImportError: No module named 'tensorflow'
4

2 に答える 2

1

cuDNN のバージョンに起因する問題。Tensorflow-GPU 1.5 バージョンは cuDNN 7.0._ バージョンをサポートします。ここからダウンロードできます。CUDA バージョン 9.0._ および cuDNN バージョン 7.0._ であることを確認してください。詳細については、こちらのリンクを参照してください。

于 2018-03-21T04:33:50.600 に答える
0

CUDA のバージョンと TensorFlow のバージョンが競合しているようです

nvcc --versionまず、またはなどのコマンドのいずれかを使用して CUDA のバージョンを確認してください。cat /usr/local/cuda/version.txt

8.x の場合は、CUDA を再インストールするか、TensorFlow を 1.4 にダウングレードする必要があります。それ以外の場合、CUDA が 9.x の場合、TensorFlow 1.5 以降が必要です。

それが役立つことを願っています。

于 2018-03-21T01:31:56.217 に答える