Ubuntu 12.04 サーバーを実行するヘッドレス ワークステーションがあり、最近新しい Tesla C2070 カードをインストールしましたが、CUDA SDK からサンプルを実行すると、次のエラーが発生します。
NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction
[reduction] starting...
Using Device 0: Tesla C2070
Reducing array of type int
16777216 elements
256 threads (max)
64 blocks
reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.
実際、このエラーは「deviceQuery」以外のすべての例で発生します。
カーネル 3.2.0、nvidia ドライバー 295.41、および Cuda 4.2.9 を使用しています。
多くの検索の後、次の方法で ecc サポートを無効にする提案が見つかりました。
nvidia-smi -g 0 --ecc-config=0
働いた。しかし問題は、ecc サポートを無効にした GPU コンピューティングの信頼性がどの程度になるかということです。
アドバイス、提案、または解決策は高く評価されます。
-コンスタンチン