問題タブ [gpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
8449 参照

multithreading - 複数のCPUスレッドを使用したcudaデバイスの選択

2 つ以上のホスト スレッドが cuda ランタイムを使用している場合、cuda ランタイムが GPU デバイスを選択する方法を教えてください。

ランタイムはスレッドごとに個別の GPU デバイスを選択しますか?

GPU デバイスを明示的に設定する必要がありますか?

ありがとう

0 投票する
2 に答える
559 参照

c# - 表示せずに HLSL/GPU にオフロードしますか?

私の知る限り、FFT やパーリン ノイズなどの特定の数学関数は、GPU でピクセル シェーダーとして実行すると、はるかに高速になります。私の質問は、これを利用して結果を計算し、ビットマップにストリーミングしたい場合、Silverlight などで実際に表示する必要なく実行できるでしょうか?

より具体的には、パーリンやその他のノイズが多く含まれる大規模な地形の生成、およびハイパスや高さマップからの法線の導出などの後処理にこれを使用することを考えていました。

0 投票する
5 に答える
13255 参照

opengl - GPUで高速化されていないOpenGL関数はどれですか?

これを読んだとき、私はショックを受けました(OpenGL wikiから):

glTranslate、glRotate、glScale

これらのハードウェアは高速化されていますか?

いいえ、これを実行する既知のGPUはありません。ドライバーはCPUでマトリックスを計算し、それをGPUにアップロードします。

他のすべてのマトリックス操作もCPUで実行されます:glPushMatrix、glPopMatrix、glLoadIdentity、glFrustum、glOrtho。

これが、これらの機能がGL3.0で非推奨と見なされる理由です。独自の数学ライブラリを用意し、独自のマトリックスを作成し、マトリックスをシェーダーにアップロードする必要があります。

非常長い間、私はほとんどのOpenGL関数がGPUを使用して計算を行うと思っていました。これが一般的な誤解であるかどうかはわかりませんが、しばらく考えてみると、これは理にかなっています。古いOpenGL関数(2.x以前)は、状態スイッチが多すぎるため、実際のアプリケーションには実際には適していません。

これにより、おそらく、多くのOpenGL関数がGPUをまったく使用していないことに気付きます。

したがって、問題は次のとおりです。

GPUを使用しないOpenGL関数呼び出しはどれですか?

上記の質問に対する答えを知っていると、OpenGLでより優れたプログラマーになるのに役立つと思います。あなたの洞察のいくつかを共有してください。

編集:

この質問は簡単に最適化レベルにつながることを私は知っています。それは良いことですが、それはこの質問の意図ではありません。

GPUを使用しない特定の一般的な実装(AshleysBrainが提案したように、nVidia / ATI、および場合によってはOSに依存する)のGL関数のセットを誰かが知っているなら、それが私が求めているものです!

もっともらしい最適化ガイドは後で来ます。このトピックでは、関数に焦点を当てましょう。

Edit2:

このトピックは、行列変換がどのように機能するかについてではありません。そのための他の トピックがあります。

0 投票する
1 に答える
278 参照

gpu - NVIDIA GPU と PhysX エンジン

NVIDIA PhysX エンジンは NVIDIA GPU にどのように実装されていますか: これはコプロセッサですか、それとも物理アルゴリズムは GPU パイプラインで実行されるフラグメント プログラムとして実装されていますか?

0 投票する
1 に答える
1267 参照

performance - ディスプレイ GPU で OpenCL を使用する場合、GUI の応答性を確保するにはどうすればよいですか?

OpenCL を学習するのに比較的短い時間でしたが、アプリケーションが原因でオペレーティング システムの UI の応答が大幅に低下するのを頻繁に目にします (たとえば、ウィンドウがドラッグに応答するのに数秒かかります)。この問題は、NVidia GPU を搭載した Windows Vista と Mac OS X で発生しました。

ディスプレイと同じ GPU で OpenCL を使用する場合、アプリケーションがこのように UI の応答性を大幅に低下させないようにするにはどうすればよいですか? また、アプリケーション内で不必要にパフォーマンスを低下させることなく、これを行うことはできますか? (つまり、ユーザーが UI を集中的に使用するタスクを実行していない場合、アプリケーションの実行速度が現在より遅くなるとは思わないでしょう。)

回答はプラットフォーム固有のものであることを理解しています (プラットフォームには OS/GPU/ドライバーの組み合わせが含まれます)。

0 投票する
1 に答える
959 参照

objective-c - アプリケーションが GPU を使用しているかどうかを判断する方法

アプリケーションが Objective-C で GPU を使用しているかどうかを判断する方法を探しています。システムで現在実行されているアプリケーションが GPU で動作しているかどうかを判断できるようにしたい (つまり、最新の MacBook Pro が Intel HD グラフィックスではなくディスクリート グラフィックスに切り替える理由)。

Quartz Window Servicesを使用して、アクティブなウィンドウのリストと、バッキング場所がビデオメモリに保存されているウィンドウのリストを交差させて情報を取得しようとしましたが、Dockアプリケーションを返すだけで、私が開いている他のアプリケーションがありますGPU (Photoshop CS5、Interface Builder) を使用していることを知っており、Dock は 330m を必要としません。

0 投票する
1 に答える
1225 参照

cuda - Nvidia Tesla vs 480 forCUDAプログラミング

私はCUDAプログラミングの研究をしています。
NVidia Teslaを1つ購入するか、4〜5 NVidia 480を購入するかを選択できますか?
おすすめは何ですか?

0 投票する
1 に答える
1297 参照

cuda - より複雑なデータ構造を含む問題を CUDA で解決する

そこで、CUDA と GPU プログラミングについて少し読みました。グローバル メモリへのアクセスが遅い (共有メモリを使用する必要がある) ことや、ワープ内のスレッドの実行パスが分岐してはならないことなど、いくつか気付きました。

また、プログラマー マニュアルとnbody problemに記載されている (密な) 行列乗算の例も調べました。そして、実装のトリックは同じようです。計算をグリッドに配置します(行列 mul の場合はすでにそうです)。次に、グリッドを小さなタイルに分割します。タイルを共有メモリにフェッチし、グローバル メモリから共有メモリにデータを再ロードする必要があるまで、スレッドに可能な限り長く計算させます。

nbody 問題の場合、各物体間相互作用の計算はまったく同じです (682 ページ)。

2 つのボディと 1 つの加速度ベクトルが必要です。ボディ ベクトルには、位置と重みの 4 つのコンポーネントがあります。論文を読むと、計算は簡単に理解できます。

しかし、動的なデータ構造を持つ、より複雑なオブジェクトがある場合はどうなるでしょうか? ここでは、他のオブジェクトのリストが添付され、添付されたオブジェクトの数がスレッドごとに異なるオブジェクト (論文で提示された body オブジェクトに類似) があると仮定します。スレッドの実行パスを分岐させずに実装するにはどうすればよいですか?

また、より複雑なデータ構造を含むさまざまなアルゴリズムを CUDA で効果的に実装する方法を説明している文献も探しています。

0 投票する
1 に答える
880 参照

cuda - CUDA スレッドが同じループ内にあり、限られた部分のみを実行するために同期する必要がある場合に CUDA スレッドを同期する方法

私はいくつかのコードを書きましたが、これを CUDA GPU に実装したいと思っていますが、同期は初めてです。以下にコードを示しますが、LOOP1 をすべてのスレッドで実行したいと考えています (したがって、この部分は CUDA を利用し、残りの部分 (LOOP1 以外の部分) はスレッドのみで実行する必要があります)。シングルスレッド。

0 投票する
4 に答える
27385 参照

floating-point - CUDA の倍精度浮動小数点

CUDA は倍精度浮動小数点数をサポートしていますか?

また、同じ理由は何ですか?