“ptx”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1742 参照

c++ - CUDA PTX JIT コンパイルを高速化する方法はありますか?

GPU で PTX サブプログラムを生成、JIT コンパイル、実行するプログラムがあります。プログラムは問題なく動作しており、実行時間もかなり良好です。CPU に対して約 500 倍のスピードアップです。問題は、コンパイルに時間がかかりすぎて、GPU の高速化がすべて消去されて速度が低下することです:)

質問は、これを行うためのより高速で効率的な方法はありますか? 一部のリソースを再利用して、プロセスをよりストリームのようにすることはできますか?

編集: 各 PTX プログラムは 1 回だけ実行され、それらはすべて非常に異なるため、JIT キャッシュは何のメリットもありません。

これは私のコードで、nvidia が提供するサンプル JIT アプリとほぼ同じです。

c++cuda jit ptx

2014-08-22T08:44:34.137

0 投票する

1 に答える

749 参照

cuda - CUDA Funnel Shift コード生成

64 ビット整数を使用する場合、CUDA は SM35 でファンネルシフト命令を内部的に生成しますか? 私のカーネルは、通常のshl.b64命令を示す PTX への SM35 ターゲットでコンパイルされます。この PTX 出力はまだ完全には最適化されておらず、モジュールが読み込まれると ( cuModuleLoad ) ネイティブアーキテクチャコードが生成されることは承知しています。

cuda ptx

2015-02-09T21:27:01.147

0 投票する

1 に答える

457 参照

opencl - OpenCL Nvidia コンパイラ (nvcc) がレジスタを 2 回使用しないのはなぜですか?

Nvidia ドライバーを使用して小さな OpenCL ベンチマークを実行しています。私のカーネルは 1024 個のヒューズ乗算加算を実行し、結果を配列に格納します。

しかし、生成された PTX を見ると、次のように表示されます。

私が正しければ、PTX は1026個の float レジスタを使用して 1024 個の演算を実行し、2 つのレジスタのみを使用してすべての乗加算演算を実行できたとしても、レジスタを 2 回再利用することはありません。1026 は、(仕様によると) スレッドが持つことができるレジスタの最大数をはるかに超えているため、これはメモリの流出につながると思います。

それはコンパイラのバグですか、それとも完全に何かが欠けていますか?

Quadro K2000 GPU で nvcc バージョン 6.5 を使用しています。

編集

実際、私は仕様で何かを見逃していました:

「PTX は仮想レジスタをサポートしているため、コンパイラフロントエンドが多数のレジスタ名を生成することは非常に一般的です。すべての名前の明示的な宣言を必要とするのではなく、PTX は、共通のプレフィックス文字列が追加された一連の変数を作成するための構文をサポートしています。整数サフィックス。たとえば、プログラムが %r0、%r1、...、%r99 という名前の .b32 変数を多数、たとえば 100 個使用しているとします。

opencl nvidia nvcc ptx

2015-02-27T14:26:30.310

0 投票する

1 に答える

880 参照