この問題は新しいもので、これまでに発生したことがないため、nvidia ドライバーまたは libtorch の更新があった可能性があります。問題:追加の GPU に Google Colab を使用しており、libtorch を必要とするプログラムをインストールしたいと考えています。そのため、ここ数週間、インストールは正常に機能していましたが、今日からプログラムをインストールできなくなりました。すでに何度か再起動、再起動などを試みましたが、何も機能していないようです。また、cuda 11.3 用の新しい libtorch バージョンをダウンロードし、cuda を更新して、ランタイムが cuda 11.3 で実行されるようにしました。電話すると
!nvidia-smi
いつものように情報を提供します。それにもかかわらず、必要に応じて libtorch を環境変数として追加した後、次を使用して libtorch を使用します。
os.environ['LIBTORCH'] = "/content/libtorch"
と
os.environ['LD_LIBRARY_PATH'] = "/content/libtorch/lib"
!nvidia-smi
突然「NVML の初期化に失敗しました: ドライバー/ライブラリのバージョンが一致しません」と表示されます。そして、これが起こっているので、プログラムをインストールできなくなりました。
それで、rustcをインストールし(プログラムにはrustupが必要なので)、パスに追加します
os.environ['PATH] += os.pathsep + "path/to/.cargo/bin"
環境変数として Libtorch を追加します。プログラムをカーゴインストールしようとしています。通常は問題なく動作していましたが、現在は失敗し、次のエラー メッセージが表示されます。
error: linking with `cc` failed: exit status: 1
= note: "cc" "-m64" "-Wl,--eh-frame-hdr" "-Wl,-znoexecstack" "-Wl,--as-needed" "-L" "/usr/lib/rustlib/x86_64-unknown-linux-gnu/lib"
.........................................
= note: /usr/bin/ld: cannot find -ltorch_cuda
/usr/bin/ld: cannot find -ltorch_cuda_cu
/usr/bin/ld: cannot find -ltorch_cuda_cpp
/usr/bin/ld: cannot find -ltorch_cpu
/usr/bin/ld: cannot find -ltorch
/usr/bin/ld: cannot find -lc10
collect2: error: ld returned 1 exit status