CUDAツールキットとSDKのダウンロードに付属するドキュメントのほとんどは、CuBLASに特化したものではなく、一般的にCUDAに関するものです。CUBLAS_Library_2.3.pdf
CuBLASを使用する場合は、ファイルから始めてください。独自のCUDAカーネルを作成する必要はありません。すでにCPUBLASを使用している場合は、CuBLASを簡単に入手できます。(そうでない場合は、プログラミングが簡単になるため、CuBLASの前に最適化されたCPUを試すことを検討してください)。
.NETでコーディングしている場合、CuBLASを使用する最も簡単な方法は、おそらくプラットフォームを使用することです-cublas.dllへの呼び出しを呼び出します。どのアレイがホスト(CPU)メモリにあり、どのアレイがデバイス(GPU)メモリにあるかを正確に把握してください。
CUDAとCuBLASは魔法の弾丸ではないことに注意してください。パフォーマンスは多くの要因(特にPCIeバスを介した転送)に依存し、CUBLAS呼び出しをCPU-BLAS呼び出しに交換するだけでは速度が向上しない場合があります。パフォーマンスを向上させるには、独自のコードにさらに大幅な変更を加える必要がある場合があります。あなたが言及する他のガイドは、CUDAアーキテクチャとそのボトルネックを理解するのに非常に役立ちます。
EDIT: I wasn't clear about the boundary between user code and kernel code. CUBLAS is a library of pre-built, optimized CUDA kernels. If you only need BLAS functionality, you do not need to write your own kernels. Instead, just call CUBLAS functions. When performance tuning, you shouldn't need to tweak the CUBLAS kernels, but you may need to change how and when you call them, and how you use memory, so as to minimize the number of transfers across the PCI express bus.