問題タブ [gpgpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
gpgpu - GPGPUプログラミングをサポートするビデオカードのリストはどこかにありますか?
私は「NVIDIAGeForce9500GS」であり、検索したところどこでも「9500GT」しか見つかりません...それは9500 GSがCUDAなどのGPGPU言語をサポートしていないことを意味しますか?
c++ - CL_MEM_OBJECT_ALLOCATION_FAILURE が表示されるのはなぜですか?
GPUに cl_mem バッファーを割り当てて作業していますが、これは特定のサイズを超えるまで正常に動作します。その場合、割り当て自体は成功しますが、実行またはコピーは成功しません。より高速な操作のためにデバイスのメモリを使用したいので、次のように割り当てます。
今私が理解していないのはサイズ制限です。約 16M バイトをコピーしていますが、約 128M バイトを使用できるはずです (「参考文献」を参照CL_DEVICE_MAX_MEM_ALLOC_SIZE
)。
これらの数値が大きく異なるのはなぜですか?
以下は、oclDeviceQuery からの抜粋です。
xna - XNA でバックバッファー (HLSL) から頂点をフェッチする
こんにちは、あいまいなタイトルで申し訳ありません:} できる限り説明しようと思います。
まず第一に、私は HLSL を初めて使用しますが、パイプラインや妖精の世界のものについては理解しています。私がやろうとしているのは、一般的な計算 (GPGPU) に GPU を使用することです。
わからないのは、(頂点シェーダーを使用して変換された) 頂点を xna アプリケーションに戻すにはどうすればよいかということです。GPUのテクスチャメモリの使用について何か読んだのですが、しっかりしたものが見つかりません...
情報/ヒントを事前にありがとう!:-)
*ラスタライザーとピクセル シェーダー (存在する場合) のせいで可能かどうかはわかりませんが、最終的にはピクセルがすべてですよね?
c - シンプルな OpenCL プログラムがコンパイルおよび実行されるが、出力が正しくない
SDK に基づいて単純な OpenCL プログラムを作成し、コンパイルして実行しましたが、出力が間違っています。私が間違っていることはありますか?
C と OpenCL のデバッグを学習するための提案は大歓迎です。私はプラットフォームにまったく慣れていません。
コードは以下です。
配列 c の出力はすべてゼロです。
ありがとう。
test_opencl.h
test_opencl.cl
test_opencl.cpp
debugging - DirectX 11コンピューティングシェーダーをデバッグする方法は?
GP-GPUプログラミングにDirectX11ComputeShaderテクノロジーを使い始めました。HLSLで非常に複雑なプログラムを作成しましたが、デバッグしたいときに、DXSDK 2009年8月のPIXユーティリティがComputeShadersをサポートしていないことに気付きました...NvidiaがNexusforVisualStudioをリリースする予定です。ダイレクトコンピューティングのデバッグをサポートしますが、まだリリースされていない次世代のNVidia GPUでのみ:(デバイスに依存しないため、Compute Shaderテクノロジーは私には非常に有望に見えますが、デバッグのサポートなしで使用するのは非常に困難です。
Compute Shaderのデバッグに使用できる、現在利用可能な、または近い将来にリリースが計画されているツールやアプローチを知っていますか?
iphone - iPhone 用の GPGPU ライブラリはありますか?
iPhone 用のGPGPUライブラリはありますか?
delphi - Delphi を使用して GPGPU テクノロジを活用していますか?
GPGPU は、ビデオ カードで並列プロセッサを使用してパフォーマンスを大幅に向上させるという原則です。
OpenCL または CUDA のいずれかを使用して、Delphi で GPGPU を使用することについて何か考えがある人はいますか? CUDA は以前は NVidia のみでしたが、OpenCL の「標準」も採用しています。
Google 検索からいくつかの Delphi サンプルを見つけましたが、クラッシュするか、コンパイル/実行されません。
最終的な指示のサンプルは次のようになります。
- ここから OpenCL DLL をダウンロードしてインストールします。
- ここから OpenCL SDK をダウンロードします。
- このサンプル Delphi プロジェクトをここからダウンロードします。
- Delphi プロジェクトを開いてコンパイルします。すべてが計画どおりに進めば、「やるべきことは何でも」実行する
その段階で、OpenCL SDK の調査と、任意の Delphi アプリから呼び出す DLL の作成とコンパイルを開始できます。
この種のものは本当に離陸し始めています。Embarcadero は、この段階で自分で何もする必要はありませんが (希望しない限り)、Delphi のチュートリアルとサンプルが利用可能であれば、それは素晴らしいことです。他の言語用の多くのサンプルを利用できますが、GPGPU アプリで Delphi を使用することがいかに簡単かを示すために、優れた単純な Delphi の例も必要です。
f# - MicrosoftAcceleratorV2-toArray2Dの質問
Microsoft.Acceleratorは初めてです。次のコードを見てください(これはF#ですが、C#に似ています)。
基本的に、FPAのリストを作成し、結果のnewfiリストのすべての要素がfiリストのすべての要素に依存するように処理します。最後に、結果のfiリストを取得したいと思います。そして私の質問は次のとおりです。結果のFPAリスト内のすべての単一要素(FPA)に対してtoArray2Dを呼び出す必要がありますか?toArray2Dを呼び出すたびに計算全体が実行されるように見えますが、これには非常に時間がかかります。
ご協力ありがとうございました。オルドジフ
c++ - cudaで疑似ランダムを生成する方法
CUDAを利用してパーティクルシステムを構築し、重い物を持ち上げようとしています。速度や寿命など、パーティクルの初期値の一部をランダム化したいと思います。乱数は視覚効果のためだけなので、超ランダムである必要はありません。私は同じ主題を扱っているこの投稿を見つけました:
これは、線形合同法が進むべき道であることを示唆しています。実装は簡単なようですが、実装に役立つものを得るのに苦労しています。誰かがデバイスで実行されるコードを提供できますか?
Windows764ビットのVC++でCUDAを使用しています。
optimization - CUDA カーネルで使用されるレジスタの数を減らす
17 個のレジスタを使用するカーネルがあり、それを 16 個に減らすと占有率が 100% になります。私の質問は、別の方法でアルゴリズムを完全に書き直すことを除いて、使用される数またはレジスタを減らすために使用できる方法はありますか? 私は常に、コンパイラは私よりずっと賢いと思っていました。たとえば、わかりやすくするためだけに追加の変数を使用することがよくあります。この考え方は間違っていますか?
注: --max_registers (または構文が何であれ) フラグについては知っていますが、ローカル メモリの使用は、占有率が 25% 低下するよりも有害です (これをテストする必要があります)。