これらは、各GPU(Tesla M2050)に2つのストリームを使用して4つのGPUでcublasDGEMMを実行した結果です。
私は自分の結果をテストしましたが、問題ありません。デフォルトのストリームを使用するバージョンと比較して、取得している高いGflops値が心配です。次の式を使用してGflopsを計算しています。
Gflops = {2.0*10^-9*(N^3+N^2)}/elapsed_time_in_s
複数のストリームを使用するバージョンの場合、この式を何らかの方法で変更する必要がありますか?
これ HtoD-ker-DtoH
は、ホストからデバイスへのデータ転送、カーネルの実行、およびデバイスからホストへのデータ転送にかかる時間(秒単位)です(これは上記の式の分母です)。Nvidiaフォーラムへのクロスポスト-http://forums.nvidia.com/index.php?showtopic=219910&st=0# entry1350908
編集:@talonmiesのコメントに続いてcudaStreamSynchronize
、時間を計算する前にaを追加しました。結果は、次のとおりです。
ありがとう、
サヤン