matrix - CUBLASまたはサポートされているライブラリ、および初心者向けの読書に重点を置いています

Question

GPU（nVidia Quadro NVS140M）の能力を利用して、プロジェクトのマトリックス計算を高速化しようとしています。いくつかのドキュメント（プログラミングガイド、ベストプラクティスガイド、リファレンスマニュアル）を読んでいますが、どのセクションに焦点を当てるべきかわかりません。これについてアドバイスをいただければ幸いです。

また、CuBLAS.netなどのサードパーティが保守しているSDKがあるかどうか疑問に思っています。これにより、プロジェクトで目標を達成するのに役立つ提供されているcublasの機能に固執する前に、cublas開発プロセスが簡素化される可能性があります。繰り返しになりますが、コメントを事前に感謝します。

score 2 · Accepted Answer

CUDAツールキットとSDKのダウンロードに付属するドキュメントのほとんどは、CuBLASに特化したものではなく、一般的にCUDAに関するものです。CUBLAS_Library_2.3.pdfCuBLASを使用する場合は、ファイルから始めてください。独自のCUDAカーネルを作成する必要はありません。すでにCPUBLASを使用している場合は、CuBLASを簡単に入手できます。（そうでない場合は、プログラミングが簡単になるため、CuBLASの前に最適化されたCPUを試すことを検討してください）。

.NETでコーディングしている場合、CuBLASを使用する最も簡単な方法は、おそらくプラットフォームを使用することです-cublas.dllへの呼び出しを呼び出します。どのアレイがホスト（CPU）メモリにあり、どのアレイがデバイス（GPU）メモリにあるかを正確に把握してください。

CUDAとCuBLASは魔法の弾丸ではないことに注意してください。パフォーマンスは多くの要因（特にPCIeバスを介した転送）に依存し、CUBLAS呼び出しをCPU-BLAS呼び出しに交換するだけでは速度が向上しない場合があります。パフォーマンスを向上させるには、独自のコードにさらに大幅な変更を加える必要がある場合があります。あなたが言及する他のガイドは、CUDAアーキテクチャとそのボトルネックを理解するのに非常に役立ちます。

EDIT: I wasn't clear about the boundary between user code and kernel code. CUBLAS is a library of pre-built, optimized CUDA kernels. If you only need BLAS functionality, you do not need to write your own kernels. Instead, just call CUBLAS functions. When performance tuning, you shouldn't need to tweak the CUBLAS kernels, but you may need to change how and when you call them, and how you use memory, so as to minimize the number of transfers across the PCI express bus.

matrix - CUBLASまたはサポートされているライブラリ、および初心者向けの読書に重点を置いています

1 に答える 1

Related

Reference