0

CTRL+Cローカル マシンで完全に応答するプロセスがあります。また、それは機能しているようにも見えます。

しかし、EC2 インスタンスではフリーズし、機能していないプロセスまたはゾンビ プロセスになります。

kill -9 <PID>は削除せず、EC2 インスタンスを再起動して適切にクリーンアップする必要があります。

実行すると、社内で開発された共有ライブラリも読み込まれます。これには私は何の影響も与えておらず、その中のソースコードにアクセスして、それが何をしているのかを確認することもできません。このライブラリも CUDA を使用しており、複数のスレッドを開始しているように見えます。

メインスレッドにシグナルハンドラーをインストールしようとしましたが、インストールされますが、呼び出し_exitてもプロセス全体がシャットダウンされず、まだ待機しているようです。

CTRL+Cここで、プロセスを正常に終了できない原因がここで発生している可能性があるのはなぜですか? 他のスレッドが行っている可能性があることをオーバーライドまたは調べることはできますか?

4

1 に答える 1

0

ああ、私は問題を見つけました。他の人に役立つ場合に備えて、質問をそのままにしておきます。

私のPCにはGTX 680があり、CUDAのインストール時にドライバーがインストールされることがわかりました。EC2 では、カードは GRID K520 であり、CUDA によってインストールされたドライバーは機能しません。最新の安定したカード固有のドライバーをダウンロードしてインストールすると、機能しました。

発見は実行後に行われnvidia-smi、カードに関する詳細は出力されず、表示されるだけでしKilledた。nvidia-smi を再度実行すると、コンソールがロックされます。

残念ながら、私は CUDA アプリが動作していることをテストしていませんでしたが、ドライバーがログにロードされ、動作していると仮定したというメッセージを出力しているように見えることに依存していました。

ドライバーの更新は、nvidia から最新のドライバーをダウンロードすることで構成されていました (.run バージョンを使用)。それで:

sudo modprobe -r nvidia_uvm
sudo modprobe -r nvidia

最後に、次のようなコマンドでインストールします。

sudo ./NVIDIA-Linux-x86_64-3xx.xx.xx.run

次に、インスタンスを再起動し、nvidia-smi で検証しました

このリンクは洞察に満ちていました-EC2でCUDA 7.5が不安定です

于 2016-09-06T20:29:08.590 に答える