4

Ubuntu 12.04 サーバーを実行するヘッドレス ワークステーションがあり、最近新しい Tesla C2070 カードをインストールしましたが、CUDA SDK からサンプルを実行すると、次のエラーが発生します。

NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction 
[reduction] starting...

Using Device 0: Tesla C2070

Reducing array of type int

16777216 elements
256 threads (max)
64 blocks

reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.

実際、このエラーは「deviceQuery」以外のすべての例で発生します。

カーネル 3.2.0、nvidia ドライバー 295.41、および Cuda 4.2.9 を使用しています。

多くの検索の後、次の方法で ecc サポートを無効にする提案が見つかりました。

   nvidia-smi -g 0 --ecc-config=0

働いた。しかし問題は、ecc サポートを無効にした GPU コンピューティングの信頼性がどの程度になるかということです。

アドバイス、提案、または解決策は高く評価されます。

-コンスタンチン

4

4 に答える 4

3

これは悪いカードではなく、ある種の互換性の問題ではないかと考えています。同じUbuntuバージョンのTesla C2075で同じ問題に苦しんでいます。nVidia に連絡したところ、ダブルビット ECC エラー (Linux で nvidia-smi -q を使用して見られる) は、カードが壊れている可能性があることを示しているとのことでした。代替品を入手しましたが、まったく同じ問題があります。

私が持っている両方のボードが同じように壊れている可能性は低いと思われるので、適切なマシンが見つかったら別のマシンで試してみるつもりです.

私たちが学んだ興味深いことは何でも投稿します。

于 2012-10-02T16:17:35.273 に答える
1

私はアランドが言ったことを繰り返し、私自身の経験を追加します.

私は多くの Fermi を搭載したコンピューティング クラスタを操作し、ECC をオンまたはオフにしてさまざまなテストを行いました。これは、使用可能なメモリの量と計算速度を向上させるために行いましたが、これは顕著でした。nvidia-smi は、ECC がオンになっているカードの ECC エラーを報告したことはなく、ECC 関連の問題を示すランタイム エラーも発生しませんでした。

カードが修正不可能な ECC 問題を検出した場合、それはハードウェアに欠陥があることを示しており、ECC をオフにしても問題が隠されているだけです。ランタイムは、何か問題が発生したことを正しく警告しており、結果に依存することはできません。

いずれにせよ、計算を実行して何が起こるかを確認することはできますが、本当の理由もなくまったくおかしなことになることに備えてください。たとえば、あちこちで 1 つのビットが反転すると、浮動小数点演算に多大な影響を与える可能性があり、命令が破損すると、カーネルが完全にクラッシュする可能性があります。

可能であれば、症状を隠すのではなく、カードを交換してみます。

于 2012-09-06T22:23:03.090 に答える
1

私のケースはカーサーズのケースと同じであることが判明しました。カードも交換しましたが、エラーは消えませんでした。BIOS でマザーボードのオンボード VGA をプライマリとして設定した後にのみ、それは消えました。これについては、Tesla のインストール マニュアルに警告が記載されているはずです。

助けてくれてありがとう。

于 2012-11-02T07:02:54.857 に答える
0

GPU の修正不可能な ECC エラーが発生すると、GPU が不安定な状態になる可能性があります (たとえば、ユーザーが割り当てたメモリだけでなく、GPU の動作に必要なメモリ領域でもデータの破損が発生した可能性があります)。GPU を回復するには、システムの電源を入れ直して再起動するか、GPU リセットを使用してみてください。nvidia-smi

nvidia-smi -h
...
-r    --gpu-reset           Trigger secondary bus reset of the GPU.
                            Can be used to reset GPU HW state in situations
                            that would otherwise require a machine reboot.
                            Typically useful if a double bit ECC error has
                            occurred.
                            --id= switch is mandatory for this switch

そのトピックman nvidia-smiに関する詳細なヘルプを入力してください

于 2012-09-20T14:02:46.583 に答える