問題タブ [ptx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
411 参照

c++ - CUDA C++ コードで「red」および「atom」PTX 命令を利用するにはどうすればよいですか?

CUDA PTX ガイドでは、アトミックおよび非アトミック リダクションを実行する命令「atom」および「red」について説明しています。これは私にとってニュースです (少なくとも非アトミック リダクションに関しては)...少し前に SHFL でリダクションを行う方法を学んだことを覚えています。これらの命令は CUDA ランタイム API に反映またはラップされていますか? または、実際に PTX コードを記述せずに C++ コードでアクセスできる他の方法はありますか?

0 投票する
1 に答える
72 参照

llvm - LLVM の 16 進コードへの NVPTX オペコード

LLVM では、CUDA ソース ファイルが PTX ファイルにコンパイルされると、オペコードが生成されます。LLVM のどのセクションで、PTX ファイル内のこれらのオペコードをバイナリ (16 進コード) (つまり、最終的な実行可能ファイル) に変換しますか。llvm/lib/Target/NVPTX を検索しても、これに対する答えは得られませんでした。

0 投票する
1 に答える
57 参照

cuda - 一度に特定の量のビットを読み取るための PTX コマンド

これは、ビット操作関数を使用してループを使用することで達成できることを理解していますが、これを行うためのより高速で直接的な方法があるかどうか疑問に思っています。データ構造のヘッダーとして約 64 ビットを使用していますが、これはさまざまなものである可能性があります。スレッドはヘッダーをデコードし、正しい構造を割り当てて、そのデータ構造を操作します。ただし、現在、ヘッダーへの読み取りと書き込みにビット操作関数を使用していますが、これは理想的ではありません。私が見逃したのか、それとも一度に1ビットずつ読み取るための特定の機能が実際には何もないのだろうか.

0 投票する
1 に答える
146 参照

c++ - CUDA の inline PTX Internal Compiler Error の説明方法

GPUグローバルメモリのキャッシュ動作を測定したいのですが、以下は私が設計したマイクロベンチマークです。私がしたいことは、グローバル メモリ アドレス r_add0 からロードし、それを共有メモリ s_tvalue[0] に格納することです。何らかの理由で、グローバル メモリからの読み込み命令をインライン PTX コードに置き換える必要があります。

ただし、nvccでコンパイルすると、コンパイルエラーが発生します

私のコードの理由を知っている人はいますか。

完全なコードは以下を参照してください。

0 投票する
1 に答える
356 参照

cuda - 古いターゲット用に CUDA PTX をバイナリにコンパイルする

質問から、 PTX はさまざまなアーキテクチャ間で移植可能であることがわかっています。これにより、sm_20 から sm_30 への移行が可能になると思います。sm_20 から sm_10 に移行する特別な使用例があります。sm_20ターゲット用にコンパイルされたPTXを使用して、sm_10ターゲット用のcubinなどのバイナリを生成することは可能ですか?