nvidiaによると. cublasZgemm は intel MKL よりも 6 倍高速です。
ただし、私の PC (i7 2600、Nvidia gtx560、OS:linux 64bit) では、cublasZgemm は MKL よりもわずかに遅くなります。
MKL 10.3 に対して numpy をリンクする熟考されたpython ディストリビューションに付属する numpy.dot() を使用します。
cublasZgemm を使用した行列乗算関数は、共有ライブラリにコンパイルされ、Python スクリプトで ctypes を使用して呼び出されます。
2 つの 1024x1024 複素行列を乗算する場合。numpy.dot() には 84 ミリ秒かかりました。ctypes 関数の呼び出しに 110 ミリ秒、cublasZgemm() の部分に 97 ミリ秒かかりました。
cublassZgemm が nvidia が述べたほど速くないのはなぜですか?