c - コンパイラ組み込みの __fmul_ を使用するにはどうすればよいですか?

Question

CUDA を使用して超並列 GPU アプリケーションを作成しています。私は手動でそれを最適化しています。Cuda C プログラミングガイド (セクション C.2.1)__fdividef_(x, y)によると、乗算と加算に同様の関数を使用することも有益です。

関数は次のように記述されています__fmul_[rn,rz,ru,rd](x,y)。

__fdividef(x,y)かっこ内の引数には記載されていません。私は疑問に思っていました、それらのブラケットは何ですか？

簡単なコードを実行すると:

int t = __fmul_(5,4);

__fmul_が未定義であるというコンパイラエラーが発生します。CUDA ランタイムが含まれているので、セットアップの問題ではないと思います。むしろ、それはそれらの角括弧と関係があります。この機能を正しく使用するにはどうすればよいですか? ありがとうございました。

編集: 明確にする必要があります。コンパイラは CUDA コンパイラ NVCC です。

score 3 · Accepted Answer

ru(切り上げ) または(切り捨て)で切り上げモードを指定する必要がありますrd。関数はありません__fmul_が、使用可能な関数シグネチャは__fmul_rdまたは__fmul_ruです。

score 0 · Accepted Answer

CUDA プログラミングガイドでは、接尾辞について説明しています。

これらの関数の詳細については、 CUDA の単精度組み込み関数のドキュメントを参照してください。

2 に答える 2