問題タブ [gpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - 大規模な点群データセットをロードするための Matlab GPU アクセラレーション
MATLAB の 3 次元空間に 100 万点の大きなデータセットを読み込もうとしていますが、それをプロット (散布またはプロット 3) しようとすると、永遠に時間がかかります。これは、最大 224 MB の共有システム メモリを持つ Intel Graphics Media Accelerator 950 を搭載したラップトップです。これにより、Matlab 2008a がクラッシュすることもあります。このデータセットをプロットするために MATLAB に Nvidia GPU を使用させる方法はありますか? Nvidia Go 6150 を搭載した別のラップトップがあります。Windows XP と Windows 7 を使用しています。
.net - プログラムでGPU使用率を取得します
GPUの現在の負荷を取得する標準的な方法はありますか?CPU%を表示するタスクマネージャーに似たものを探しています。GPU-Zなどのユーティリティはこの値を示しますが、これをどのように取得するかはわかりません。現時点で特にAMDグラフィックカードに興味があります。ポインタがあれば役に立ちます。
それを行うためのクリーンなAPI方法がない場合、この情報を取得するために出力をキャプチャできるプログラムはありますか?
c++ - CUDA__global__関数内のprintf
現在、GPUで行列乗算を記述していて、コードをデバッグしたいのですが、デバイス関数内でprintfを使用できないため、その関数内で何が起こっているかを確認するために他にできることがあります。これは私の現在の機能です:
AdとBdが私が思っているものであるかどうかを知り、その関数が実際に呼び出されているかどうかを確認したいと思います。
gpu - DirectX HAL 仕様
DirectX HAL 仕様はどこにありますか?
この図を正しいと考える
次に、すべての GPU ベンダーは、HAL と対話するようにデバイス ドライバーを作成する必要があります。
HAL はどこで指定されていますか? MSFT は HAL をどのように調整または更新しますか? HAL はいつ変更されますか? HAL が変更された場合、世界が壊れたり、空が落ちたりしますか?
opengl - OpenGL で FBO を処理する最良の方法は何ですか?
長い間、OpenGL FrameBuffer Objects (FBO) を処理する最良の方法は何だろうと思っていました。FBO の切り替えはコストがかかる可能性がありますが、新しいアタッチメントも定義します。
どうすれば速くできますか?
私はこれらの3つの間で躊躇します:
すべてに 1 つの FBO、アタッチメントを変更しますが、FBO を切り替えないでください
レンダリング パス内のレンダー ターゲット (サイズ + フォーマット) ごとに 1 つの FBO。つまり、同様のレンダー ターゲットに対して同じ FBO を再利用します。しかし、この方法では、カスタム ブラーには 4 つ以上の FBO がかかります。
レンダー ターゲットごとに 1 つの FBO。添付ファイルを 1 回だけ設定してから、FBO を切り替える
また、FBO スイッチの数を最小限に抑える必要がありますか (テクスチャ バインディングの数を最小限に抑えるように) ?
cuda - クーダを理解するのを手伝ってください
cuda を使用した NVIDIA GPU アーキテクチャのスレッドを理解するのに問題があります。
誰でもこれらの情報を明確にすることができます: 8800 gpu には、それぞれ 8 個の SP を持つ 16 個の SM があります。128 個の SP があります。
スタンフォードのビデオ プレゼンテーションを見ていましたが、すべての SP が 96 スレッドを同時に実行できるとのことでした。これは、(SP) が 96/32=3 のワープを同時に実行できることを意味しますか?
さらに、すべての SP は 96 のスレッドを実行でき、すべての SM に 8 つの SP があるためです。これは、すべての SM が 96*8=768 スレッドを同時に実行できるということですか?? しかし、すべての SM が一度に 1 つのブロックを実行でき、ブロック内のスレッドの最大数が 512 である場合、768 のスレッドを同時に実行し、最大 512 のスレッドを持つ目的は何ですか?
より一般的な質問は次のとおりです。ブロック、スレッド、およびワープは、SM および SP にどのように配布されますか? すべての SM が一度に 1 つのブロックを実行し、ブロック内のスレッドがワープ (32 スレッド) に分割され、SP がワープを実行することを読みました。
opengl - OpenGL GPUメモリのクリーンアップが必要ですか?
glDelete *関数を使用してすべてのDisplayList、Textures、(Geometry-)Shadersなどを手動でクリーンアップする必要がありますか、それともプログラムが終了/クラッシュしたときにGPU memが自動的に解放されますか?
注:GPU memは、CPUメモリではなく、専用のグラフィックカード上の専用メモリを指します。
flash - ブラウザ以外でも Flash を 100% GPU 高速化することはできますか?
Flash 10 の GPU アクセラレーション機能の範囲を把握しようとしています。コードを 100% GPU アクセラレートすることは可能ですか? それとも特定のサンドボックス化された機能のみですか? それを取得するためにブラウザーの外に出なければならない場合でも、ブラウザー内で達成できる GPU アクセラレーションの量と種類を正確に知る必要がある場合でも.
良い記事へのリンクは素晴らしいでしょう。
vmware - VMware 上の cuda プログラム
cuda プログラムを作成し、仮想マシンとして ubuntu でテストしています。これの理由は、Windows 7 を使用しているためです。ubuntu をセカンダリ オペレーティング システムとしてインストールしたくありません。テストには Linux オペレーティング システムを使用する必要があります。私の質問は: 仮想マシンは GPU リソースを制限しますか? 仮想マシンで実行するよりもプライマリ オペレーティング システムで実行した場合、cuda コードは高速になりますか?
opengl - 2 つのレンダリングを「オーバーレイ」する OpenGL
博覧会:
ここで、画面に次の画像を作成します。
この最後のステップを完全に GPU で実行する方法はありますか (少しいじって画面に表示するだけのようです)。私の現在の解決策には、1) tex1 と tex2 を CPU のメモリに読み込んで戻す、2) CPU で配列操作を実行する、3) それを GPU に送り返してから表示する、が含まれます。ただし、これを完全に GPU で実行できるはずです。
ありがとう!