問題タブ [ptx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - CUDA C++ コードで「red」および「atom」PTX 命令を利用するにはどうすればよいですか?
CUDA PTX ガイドでは、アトミックおよび非アトミック リダクションを実行する命令「atom」および「red」について説明しています。これは私にとってニュースです (少なくとも非アトミック リダクションに関しては)...少し前に SHFL でリダクションを行う方法を学んだことを覚えています。これらの命令は CUDA ランタイム API に反映またはラップされていますか? または、実際に PTX コードを記述せずに C++ コードでアクセスできる他の方法はありますか?
llvm - LLVM の 16 進コードへの NVPTX オペコード
LLVM では、CUDA ソース ファイルが PTX ファイルにコンパイルされると、オペコードが生成されます。LLVM のどのセクションで、PTX ファイル内のこれらのオペコードをバイナリ (16 進コード) (つまり、最終的な実行可能ファイル) に変換しますか。llvm/lib/Target/NVPTX を検索しても、これに対する答えは得られませんでした。
cuda - 一度に特定の量のビットを読み取るための PTX コマンド
これは、ビット操作関数を使用してループを使用することで達成できることを理解していますが、これを行うためのより高速で直接的な方法があるかどうか疑問に思っています。データ構造のヘッダーとして約 64 ビットを使用していますが、これはさまざまなものである可能性があります。スレッドはヘッダーをデコードし、正しい構造を割り当てて、そのデータ構造を操作します。ただし、現在、ヘッダーへの読み取りと書き込みにビット操作関数を使用していますが、これは理想的ではありません。私が見逃したのか、それとも一度に1ビットずつ読み取るための特定の機能が実際には何もないのだろうか.
c++ - CUDA の inline PTX Internal Compiler Error の説明方法
GPUグローバルメモリのキャッシュ動作を測定したいのですが、以下は私が設計したマイクロベンチマークです。私がしたいことは、グローバル メモリ アドレス r_add0 からロードし、それを共有メモリ s_tvalue[0] に格納することです。何らかの理由で、グローバル メモリからの読み込み命令をインライン PTX コードに置き換える必要があります。
ただし、nvccでコンパイルすると、コンパイルエラーが発生します
私のコードの理由を知っている人はいますか。
完全なコードは以下を参照してください。
cuda - 古いターゲット用に CUDA PTX をバイナリにコンパイルする
質問から、 PTX はさまざまなアーキテクチャ間で移植可能であることがわかっています。これにより、sm_20 から sm_30 への移行が可能になると思います。sm_20 から sm_10 に移行する特別な使用例があります。sm_20ターゲット用にコンパイルされたPTXを使用して、sm_10ターゲット用のcubinなどのバイナリを生成することは可能ですか?