現在受け入れられている回答は古くなっています。CUDA 6 (現時点では Release Candidate の状態) には、GPU の相互作用を処理し、armadillo と組み合わせて動作する NVBLAS と呼ばれる真のドロップイン代替品があります。プログラムを再度 libnvblas.so にリンクすることで、NVBLAS を使用できます。
ただし、すべての BLAS メソッドが使用できるわけではないため、フォールバック BLAS ライブラリ (openblas など) を指定する必要があります。
詳細については、https://developer.nvidia.com/cublasxtを参照してください。